聚类导向的字典学习及基于稀疏表示的高维数据聚类研究

基本信息
批准号:71271027
项目类别:面上项目
资助金额:54.00
负责人:武森
学科分类:
依托单位:北京科技大学
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:魏桂英,高学东,谷淑娟,刘燕驰,白尘,冯小东,张桂琼
关键词:
稀疏表示数据挖掘高维数据聚类分析字典学习
结项摘要

High dimensional data cluster analysis is one of the hot and difficult topics in data mining nowadays, and has a wide range of applications in Internet knowledge discovery and management decision support. While sparse representation related theory, which has been applied in machine learning and pattern recognition successfully in recent years, provides fresh thought to the research on high dimensional data clustering. This proposal, aiming to improve the sparse representation theory and high dimensional data clustering method, is planned to research on clustering-oriented dictionary learning and introduce sparse representation theory to the related problem study of high dimensional data clustering. The main contents of the research are as follow:.(1) Exploration for mechanism of sparse representation theory and its successful application in classification task; establishment of sparse representation model with different types of high dimensional data and research on the high dimensional data clustering task-oriented sparse dictionary learning algorithm..(2) Research on missing value imputation and similarity measurement of high dimensional data with different types based on the solution results of sparse representation, to provide a basis for the high dimensional data clustering algorithm via sparse representation..(3) Research on the system of high dimensional data clustering from the point of view of clustering effectiveness validation method and clustering algorithm on high dimensional data, to optimize the result of high dimensional data clustering mining.

高维数据的聚类分析,是当前数据挖掘的研究热点和难点之一,在互联网知识发现及管理决策支持中有着广泛应用。而近年来稀疏表示相关理论在机器学习和模式识别中的成功应用为高维数据聚类研究提供了新的思路。本项目以完善稀疏表示理论及高维聚类方法为目标,研究聚类导向的字典学习方法,进而引入稀疏表示理论研究高维数据聚类相关问题。主要将研究以下内容:.(1)探索稀疏表示理论及其在分类任务中成功应用的机理,构建不同类型高维数据的稀疏表示模型,研究以高维数据聚类任务导向的稀疏表示字典学习方法。.(2)基于稀疏表示求解结果研究不同类型高维缺失数据处理方法和高维数据相似性度量方法,为基于稀疏表示的高维聚类算法提供研究基础。.(3)从高维数据聚类有效性评价方法和高维聚类算法的角度,研究基于稀疏表示的高维数据聚类体系,以优化高维数据聚类挖掘效果。

项目摘要

作为支持管理决策的重要工具之一,数据挖掘的应用范围不断扩大,所处理的数据逐渐呈现出高维和未标记的主要特点,即高维未标记数据。本研究以完善稀疏表示理论及高维数聚类方法为目标,研究聚类导向的字典学习方法,进而引入稀疏表示理论研究高维数据聚类相关的缺失数据填补、相似性度量、聚类有效性评价和实现算法系列问题,并给出方法模型和验证分析,主要成果如下:.(1)针对大规模在线高维数据聚类的学习建模问题,研究稀疏表示的无监督字典学习方法,提出多重超图约束稀疏编码的优化目标及交替优化求解方法。其利用能有效描述高维数据多元流形关系的超图模型及超图拉普拉斯正则化约束,扩展超图矩阵对稀疏求解系数的一致性约束,增加字典学习的无监督判别能力,并通过多重集成约束项实现最优超图的自动选择。.(2)针对高维数据聚类,研究基于稀疏表示的缺失数据填补及相似性分析问题,为基于稀疏表示的高维数据聚类算法提供研究基础。提出基于局部约束稀疏表示的缺失数据无监督填补方法,并设计了三种字典构造方法。其引入距离加权l1范数和l2范数正则化项,在自动选择相似数据对象的同时,保留局部结构特征并避免过拟合。提出采用稀疏表示向量的高维数据相似性分析方法。与直接使用稀疏系数的方法相比,更真实地反映数据对象间的相似度。基本思想是两个相似对象的稀疏表示向量趋于相似,两个不相似对象的稀疏表示向量也趋于不相似。并进一步提出了两种基于稀疏表示向量相似度谱聚类的权重矩阵构建方法。.(3)从高维数据聚类有效性评价和优化聚类挖掘效果的角度,提出高维数据聚类内部评价指标及系列针对完备数据和缺失数据的聚类算法。并针对高维数据无监督挖掘的学习建模问题,提出基于近邻加权稀疏表示的无监督图学习方法,同时保持高维数据的稀疏性和局部结构特征,降低传统的基于稀疏表示方法的时间复杂度,并可融合到谱聚类、子空间学习及标签繁殖等高维数据挖掘任务中,提升高维数据无监督挖掘能力。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
3

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

武森的其他基金

批准号:70771007
批准年份:2007
资助金额:16.00
项目类别:面上项目

相似国自然基金

1

高维稀疏数据聚类研究

批准号:70771007
批准年份:2007
负责人:武森
学科分类:G01
资助金额:16.00
项目类别:面上项目
2

高维数据非负稀疏特征抽取及聚类算法研究

批准号:61065003
批准年份:2010
负责人:刘遵雄
学科分类:F0304
资助金额:28.00
项目类别:地区科学基金项目
3

基于约束的高维数据聚类

批准号:61272374
批准年份:2012
负责人:张宪超
学科分类:F0607
资助金额:80.00
项目类别:面上项目
4

基于稀疏低秩表示的子空间聚类算法研究

批准号:61502175
批准年份:2015
负责人:刘小兰
学科分类:F0605
资助金额:20.00
项目类别:青年科学基金项目