面向多源异构流数据的在线聚类集成算法研究及其应用

基本信息
批准号:61602189
项目类别:青年科学基金项目
资助金额:20.00
负责人:黄栋
学科分类:
依托单位:华南农业大学
批准年份:2016
结题年份:2019
起止时间:2017-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:王昌栋,边山,孔元,张广煜,陈源威,麦嘉铭,龚杰文
关键词:
聚类集成流数据数据聚类在线聚类多源异构
结项摘要

As an important research topic, the clustering ensemble technique has been receiving increasing attention in recent years, due to its ability to combine multiple clusterings into a probably better and more robust clustering. However, most, if not all, of the existing clustering ensemble algorithms are devised for offline data, which lack the desirable ability to handle streaming data. With the rapid development of information technology, more and more data emerge as data streams, which are often collected from multiple heterogeneous sources. Although many streaming data clustering algorithms have been developed, yet these algorithms are generally designed for single-source streaming data and not applicable to multi-source heterogeneous streaming data. Inspired by clustering ensemble and streaming data clustering, in this project, we plan to do research on clustering ensemble for multi-source heterogeneous streaming data. By exploiting various techniques, such as support vector clustering, incremental learning, factor graph, clustering ensemble, weighted co-association matrix, and random walk, our theoretical research mainly focuses on three sub-topics, that is, (1) adaptive ensemble generation and selection for multi-source heterogeneous streaming data, (2) online clustering ensemble for streaming data, and (3) semi-supervised online clustering ensemble. In terms of application research, we plan to apply our online clustering ensemble algorithms to analyze the multi-source streaming data of visual surveillance as well as the multi-source streaming data of social networks. The in-depth research work of this project will enrich the theory and methodology of data mining and pattern recognition, and particularly promote the development of big data analysis and streaming data clustering.

作为聚类研究的一个重要研究方向,聚类集成技术因其融合多聚类结果以得更优聚类的能力,近年来受关注程度不断提高。但是,当前聚类集成算法往往针对离线数据而设计,无法用于流数据。随着信息技术的快速发展,越来越多的数据以流数据的形式存在,并往往呈现多源异构性。现有流数据聚类算法多适用于常规单源流数据,对于多源异构流数据的聚类研究还非常匮乏。本项目拟以聚类集成与流数据聚类为切入点,研究面向多源异构流数据的在线聚类集成新框架,结合支持向量聚类、增量学习、因子图理论、聚类集成、加权共联矩阵、随机游走等理论与方法,着重开展三个方面的理论研究,分别是:1) 流聚类成员自适应生成与选择; 2) 多流聚类成员在线聚类集成;3) 半监督在线聚类集成。进一步,本项目拟开展所建立算法在监控视频流数据与社交网络流数据上的应用研究。本项目研究工作将丰富数据挖掘与模式识别的理论与方法,特别是推动大数据分析与流数据研究的发展。

项目摘要

聚类集成是当前聚类研究的一个热点问题,其目标在于融合多聚类结果以得到一个更优、更鲁棒聚类。本项目研究工作围绕聚类集成与多源异构数据展开,结合支持向量聚类、增量学习、加权共联矩阵、二部图模型、随机游走、图嵌入、图学习等理论与方法,建立了若干聚类集成、多源(多视图)聚类、网络分析、推荐系统、特征抽取新算法,并在所建立算法基础上开展了医学脑电数据分析与癌症基因数据分析等应用研究工作。项目执行期间取得的代表性成果包括(1)基于二部图模型的大规模谱聚类与大规模聚类集成算法、(2)基于快速簇相似度传播的聚类集成算法、(3)基于局部欠稳定性评估与加权的聚类集成算法、(4)基于跨视图一致性与非一致性融合建模图学习的多视图聚类算法以及(5)基于多子空间随机化与协同的无监督特征抽取算法。在本项目支持下,迄今共完成SCI/EI论文24篇。具体地,已完成SCI期刊论文10篇,其中项目主持人以第一作者完成SCI期刊论文4篇;已完成EI国际会议论文14篇,其中项目主持人以第一作者完成国际会议论文3篇,以通讯作者完成国际会议论文5篇。本项目研究工作进一步丰富了数据挖掘与大数据分析的理论与方法,特别是推动了聚类集成与多源异构数据分析的发展。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

针灸治疗胃食管反流病的研究进展

针灸治疗胃食管反流病的研究进展

DOI:
发表时间:2022
3

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
4

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

DOI:
发表时间:2020
5

面向云工作流安全的任务调度方法

面向云工作流安全的任务调度方法

DOI:10.7544/issn1000-1239.2018.20170425
发表时间:2018

黄栋的其他基金

批准号:81560256
批准年份:2015
资助金额:38.00
项目类别:地区科学基金项目
批准号:41301009
批准年份:2013
资助金额:26.00
项目类别:青年科学基金项目

相似国自然基金

1

面向多源异构数据的多聚类通用模型及安全高效算法研究

批准号:61802112
批准年份:2018
负责人:赵雅靓
学科分类:F0214
资助金额:24.00
项目类别:青年科学基金项目
2

面向多源大数据的鲁棒聚类模型与算法研究

批准号:61502289
批准年份:2015
负责人:杜亮
学科分类:F0201
资助金额:21.00
项目类别:青年科学基金项目
3

基于相似度学习的异构数据聚类算法研究及其应用

批准号:61876193
批准年份:2018
负责人:王昌栋
学科分类:F0603
资助金额:65.00
项目类别:面上项目
4

面向多源高维数据流的在线特征选择与分类方法研究

批准号:61673152
批准年份:2016
负责人:胡学钢
学科分类:F0605
资助金额:61.00
项目类别:面上项目