High-dimensional big data brings two challenges to the current data clustering technologies: very high-dimensionallity and massive objects. Such data is very sparse and often contains clusters in subspace, which makes most clustering methods inapplicable. Big data with massive objects cannot be clustered by serial clustering algorithms. To conquer the above two challenges, this project studies distributed variable layering subspace weighting cluster ensembles method for TB scale data. This research is a continuation of applicant's preliminary work in PhD study, which first proposed two-level variable weighting subspace clustering method for multi-view data. This project has three main tasks: 1) Develop methods to divide a large number of variables into a few groups and a variable layering subspace weighting clustering algorithm to solve the problem of very high-dimensional data clustering; 2) Develop a new cluster ensembles algorithm that uses the variable layering subspace weighting clustering algorithm for component clustering generation; 3) Develop a scalable distributed variable layering subspace weighting cluster ensembles algorithm based on the breadth-first strategy to enable TB scale data clustering. The expected delieverable will contribute to new theories and tools to solve large scale data clustering problems.
大数据聚类的挑战重点体现在两个方面:一方面是数据的超高维性,这种超高维数据具有内在的稀疏性和聚类簇分布的子空间特性,使得绝大部分已有聚类算法失效;另一方面,庞大的对象数量导致庞大的数据量,串行的聚类算法难以对比单机内存大得多的数据进行聚类。 针对以上挑战,本项目基于申请人在博士期间的研究成果,提出面向TB级大数据的分布式属性分层加权子空间聚类集成技术。研究内容包括:1)研究属性分组归并、单个属性与属性组分层加权的子空间聚类方法,解决超高维数据的聚类问题;2)结合聚类集成方法,研究属性分层加权子空间聚类集成算法,进一步优化超高维数据聚类的结果;3)针对超高维大数据聚类问题,在基于MapReduce的k-means软子空间算法实现的基础上,研发广度优先的分布式属性分层加权子空间聚类集成方法,达到TB级超高维大数据聚类的能力。预期成果将为大数据聚类分析提供新的理论工具及关键技术。
在大数据时代,聚类问题面临两个大的挑战:数据量非常大以及数据包含的变量非常多。为了有效地解决这两个问题,本研究在项目申请人前期提出的“属性分组加权的子空间聚类算法”的基础上,基于子空间加权及集成聚类方法展开了一系列的研究,在面向TB级超高维大数据聚类算法方法取得了众多的研究成果。.项目围绕基础算法及示范应用展开研究,主要研究内容及成果包括: .1)针对大多数数据中特征分组未给定的问题,提出一种隐变量线性子空间聚类方法LFGL,该方法在聚类的过程中自动学习变量的隐含分组;.2)将属性分层加权方法用于文本聚类问题,提出基于LDA的LDA-FG-k-means 算法;并结合聚类集成方法,提出一种用于文本聚类的模糊子空间聚类集成算法;.3)针对双向聚类问题,提出一种双向加权聚类算法TWCC;.4)针对大数据中存在的类不均匀问题,将分组加权的思想推广到集成学习的训练集生成问题上,提出一种分层过抽样方法SOB,实验表明该方法可以取得比传统的Bagging, Boosting更好的结果。.5)将属性分层加权方法用于基因数据分析问题,提出子空间加权的聚类算法SWCC,该算法在基因数据聚类上取得了不错的结果;并基于该方法提出一种分层特征选择方法,用于基因数据的特征选择;.6)将属性分层加权方法用于大规模交易数据中的客户分群问题,提出了基于购买树的大规模交易数据聚类思想,并基于购买树开发了快速聚类算法PurTree和基于谱聚类的LPS (Local PurTree Spectral)算法;.7)基于Hadoop分布式计算框架开发了聚类算法库,并基于该算法库开发了大规模交易数据的客户分群系统。.在项目执行期间,发表论文7篇,其中SCI论文2篇,EI论文4篇,在审论文2篇;成功申请专利1个,另有1个专利进入实审阶段,1个专利通过初审;正在申请软件著作权1项;培养研究生2个(已毕业),在读研究生3个,已毕业本科生10个。. 通过本项目的开展,完善了“属性分层加权子空间聚类算法”的研究,并将该方法推广到包括文本数据、基因数据及大规模交易数据分析领域,从而为大数据的聚类分析研究与应用提供崭新的理论工具及关键技术。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
论大数据环境对情报学发展的影响
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
基于SSVEP 直接脑控机器人方向和速度研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
面向社会媒体数据的子空间聚类算法研究
复杂多视图高维数据子空间聚类方法研究
面向高维数据集成降维的半监督聚类方法研究
面向大规模二维数据的岭回归子空间聚类算法研究