Clustering analysis is widely used as one of the fundamental problems in unsupervised machine learning. However, in the age of big data, a mass amount of unlabelled data may often be contaminated by noises. As a result, traditional clustering algorithms usually face the stableness and robustness problems. To address these problems, this project proposes a robust ensemble framework to improve the stableness and robustness of the clustering algorithms. Firstly, we use various of clustering methods to generate base clustering results and study how to choose the appropriate results from all these base results; secondly, we study the structure and distribution of the noises on the base results and propose a method to characterize them; lastly, we study how to integrate the de-noising and clustering ensemble into a unified framework and obtain the final cleaner consensus clustering result. This project studies the robust ensemble method and applies it to learn a consensus clustering result to improve the stableness and robustness of the clustering algorithms. Thus, this project can reveal the intrinsic structure of the big data more effectively and has important theoretical and practical value.
聚类分析作为无监督机器学习中的基础问题之一,在当今大数据时代得到了广泛应用。然而,大数据环境中,数据质量普遍存在问题,即数据容易受到噪声污染,并且缺少人工标注,传统聚类算法通常存在稳定性和鲁棒性的问题。针对该问题,本项目提出基于鲁棒集成学习的方法提高聚类算法的稳定性和鲁棒性。首先,使用多种不同的聚类算法对原始数据进行聚类,研究如何从这些聚类结果中选择出合适的基聚类结果用于集成学习;然后,研究这些基聚类结果上的噪声结构和分布,提出刻画噪声的方法;最后,研究如何在集成各个基聚类结果的同时处理噪声,以得到干净的一致性聚类结果。本项目通过探索鲁棒集成学习方法,拟提出基于鲁棒集成的一致性聚类框架,提升传统聚类算法的稳定性和鲁棒性,从而更有效地揭示大数据的内部结构,因而具有重要的理论意义和实用价值。
聚类分析是无监督学习中重要任务,然而现实数据中,因数据采集、存储方式的原因,数据往往存在各种噪声及异常点。传统聚类方法一方面难以处理带噪声数据,另一方面算法本身存在不稳定性,因而导致其结果存在鲁棒性与稳定性的问题。本项目针对此问题,深入研究了基于鲁棒集成的一致性聚类方法,全面提升聚类学习的鲁棒性及稳定性。.本项目的主要成果包括:.1. 针对基聚类结果质量良莠不齐的问题,本项目提出基聚类结果选择方法,通过对基聚类结果加权,充分利用高质量基聚类结果进行集成,降低低质量聚类结果权重,从而减轻其对最终结果的副作用。.2. 本项目深入研究基聚类结果上噪声分布的刻画方法,通过对噪声结构性质的分析,对噪声进行建模。.3. 本项目将噪声抽取与聚类集成融合在统一的框架中,并提出高效优化方法,对其进行优化求解,得到最终干净的一致性聚类结果。.4. 依托本项目,在国内外本领域重要会议期刊上,如IJCAI、AAAI、SDM、IEEE TNNLS、PR、KBS、自动化学报、计算机科学等发表学术论文12篇,申请发明专利3项。
{{i.achievement_title}}
数据更新时间:2023-05-31
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
基于混合优化方法的大口径主镜设计
三级硅基填料的构筑及其对牙科复合树脂性能的影响
混采地震数据高效高精度分离处理方法研究进展
固溶时效深冷复合处理对ZCuAl_(10)Fe_3Mn_2合金微观组织和热疲劳性能的影响
基于子空间学习的多视图鲁棒一致性表达研究
基于鲁棒相似性测度的含噪图像分割的谱聚类方法
基于谱聚类的文本聚类集成方法研究
基于类属特征学习的高效鲁棒多标记学习方法研究