As an important research topic, the clustering ensemble technique has been receiving increasing attention in recent years, due to its ability to combine multiple clusterings into a probably better and more robust clustering. However, most, if not all, of the existing clustering ensemble algorithms are devised for offline data, which lack the desirable ability to handle streaming data. With the rapid development of information technology, more and more data emerge as data streams, which are often collected from multiple heterogeneous sources. Although many streaming data clustering algorithms have been developed, yet these algorithms are generally designed for single-source streaming data and not applicable to multi-source heterogeneous streaming data. Inspired by clustering ensemble and streaming data clustering, in this project, we plan to do research on clustering ensemble for multi-source heterogeneous streaming data. By exploiting various techniques, such as support vector clustering, incremental learning, factor graph, clustering ensemble, weighted co-association matrix, and random walk, our theoretical research mainly focuses on three sub-topics, that is, (1) adaptive ensemble generation and selection for multi-source heterogeneous streaming data, (2) online clustering ensemble for streaming data, and (3) semi-supervised online clustering ensemble. In terms of application research, we plan to apply our online clustering ensemble algorithms to analyze the multi-source streaming data of visual surveillance as well as the multi-source streaming data of social networks. The in-depth research work of this project will enrich the theory and methodology of data mining and pattern recognition, and particularly promote the development of big data analysis and streaming data clustering.
作为聚类研究的一个重要研究方向,聚类集成技术因其融合多聚类结果以得更优聚类的能力,近年来受关注程度不断提高。但是,当前聚类集成算法往往针对离线数据而设计,无法用于流数据。随着信息技术的快速发展,越来越多的数据以流数据的形式存在,并往往呈现多源异构性。现有流数据聚类算法多适用于常规单源流数据,对于多源异构流数据的聚类研究还非常匮乏。本项目拟以聚类集成与流数据聚类为切入点,研究面向多源异构流数据的在线聚类集成新框架,结合支持向量聚类、增量学习、因子图理论、聚类集成、加权共联矩阵、随机游走等理论与方法,着重开展三个方面的理论研究,分别是:1) 流聚类成员自适应生成与选择; 2) 多流聚类成员在线聚类集成;3) 半监督在线聚类集成。进一步,本项目拟开展所建立算法在监控视频流数据与社交网络流数据上的应用研究。本项目研究工作将丰富数据挖掘与模式识别的理论与方法,特别是推动大数据分析与流数据研究的发展。
聚类集成是当前聚类研究的一个热点问题,其目标在于融合多聚类结果以得到一个更优、更鲁棒聚类。本项目研究工作围绕聚类集成与多源异构数据展开,结合支持向量聚类、增量学习、加权共联矩阵、二部图模型、随机游走、图嵌入、图学习等理论与方法,建立了若干聚类集成、多源(多视图)聚类、网络分析、推荐系统、特征抽取新算法,并在所建立算法基础上开展了医学脑电数据分析与癌症基因数据分析等应用研究工作。项目执行期间取得的代表性成果包括(1)基于二部图模型的大规模谱聚类与大规模聚类集成算法、(2)基于快速簇相似度传播的聚类集成算法、(3)基于局部欠稳定性评估与加权的聚类集成算法、(4)基于跨视图一致性与非一致性融合建模图学习的多视图聚类算法以及(5)基于多子空间随机化与协同的无监督特征抽取算法。在本项目支持下,迄今共完成SCI/EI论文24篇。具体地,已完成SCI期刊论文10篇,其中项目主持人以第一作者完成SCI期刊论文4篇;已完成EI国际会议论文14篇,其中项目主持人以第一作者完成国际会议论文3篇,以通讯作者完成国际会议论文5篇。本项目研究工作进一步丰富了数据挖掘与大数据分析的理论与方法,特别是推动了聚类集成与多源异构数据分析的发展。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
针灸治疗胃食管反流病的研究进展
基于多模态信息特征融合的犯罪预测算法研究
端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响
面向云工作流安全的任务调度方法
面向多源异构数据的多聚类通用模型及安全高效算法研究
面向多源大数据的鲁棒聚类模型与算法研究
基于相似度学习的异构数据聚类算法研究及其应用
面向多源高维数据流的在线特征选择与分类方法研究