带参照物的聚类集成方法研究

基本信息
批准号:61773247
项目类别:面上项目
资助金额:65.00
负责人:白亮
学科分类:
依托单位:山西大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:曹付元,杜航原,孟银凤,徐乾,宋云胜,张美琴,李鑫,高锦
关键词:
聚类集成聚类有效性准则集成参照物集成优化模型聚类分析
结项摘要

Cluster ensemble is different from supervised machine learning. Due to the fact that there is no label information as an ensemble reference, cluster ensemble methods mainly focus on getting the best consistent result from a set of clusterings, which can enhance the quality and robustness of clustering. However, in the cases, the ensemble purpose is single and the ensemble result cannot reflect “Multi-weaks equal to a Strong” or “Strong-Strong Union”. Cluster ensemble should select different ensemble references according to different cases, which makes the ensemble have a strong target. Therefore, we will take references of cluster ensemble as the research subject and systematically study the following research contents: (1) The cluster ensemble problem with single reference. We study how to take a global-search clustering algorithm as the reference and integrate multiple local-search clusterings to simulate the global-search clustering. (2) The cluster ensemble problem with multiple references. We study how to integrate multiple clustering validity criteria to aggregate base clusterings, while there are more than one references. (3) The cluster ensemble problem with the potential reference. We study how to extract the potential reference and use it to enhance the effectiveness of cluster ensemble. We will test these research contributions on social-networks data from the real world and apply them to the detection of topic and community.

聚类集成不同于有监督的集成学习。由于没有标签信息作为集成的参照物,聚类集成方法更多地集中在获取给定聚类结果集的最大一致性。虽然这样做,在一定程度上能够提高聚类结果的质量和健壮性,然而,由于缺乏集成的参照物,集成目标略显单一且集成结果不易体现弱弱生强或强强联合。聚类集成应该针对不同情况选择相应的参照物,使得集成有着更强的目的性。因此,该项目拟以聚类集成的参照物为研究对象,分别就以下内容开展研究工作:(1)单参照物的聚类集成问题。研究如何以某一全局搜索聚类算法为参照物,融合多个局部聚类结果去模拟全局聚类结果;(2)多参照物的聚类集成问题。研究如何在有多个参照物的情况下融合不同的聚类评价准则完成聚类集成;(3)潜在参照物的聚类集成问题。研究如何在没有参照物的情况下自动提取潜在的参照物。课题组拟结合社交媒体数据对获得的研究成果开展实验分析,充分挖掘它们的应用价值,应用它们于主题和社区发现中。

项目摘要

聚类集成是无监督机器学习的重要研究方向,是实现提升数据聚类结果的质量和健壮性的重要技术手段之一。然而,由于缺乏集成的方向,聚类集成的目标略显单一且集成结果不易体现“弱弱生强”或“强强联合”。为了使得集成有着更强的目的性,该项目以聚类集成的参照物为研究对象,分别就单参照物的聚类集成、多参照物的聚类集成和潜在参照物的聚类集成等问题开展了深入地研究工作,获得了系列研究成果,在国内外重要学术期刊和会议IEEE TPAMI、IEEE TKDE、IEEE TFS、ICML和AAAI上发表学术论文16篇,申请发明专利3项,其中1项获得授权。代表性的研究成果如下:(1)构建了以非线性聚类结果为参照物的聚类集成框架,实现了融合多线性结果去逼近非线性聚类结果,降低了非线性学习成本;(2)提出了面向多监督信息的一致性学习模型,实现了不同源弱监督信息在同一特征空间上进行比较和融合,并以它们为聚类参照物去挖掘数据中潜在的类结构;(3)在缺乏集成参照物的情况下,提出了基于信息熵理论的聚类集成框架,从降低集成的不确定性的角度去获得最终聚类结果;(4)对获得的研究成果在社交网络数据上开展实证分析,并应用于网络的社区发现任务中。这些成果将进一步丰富聚类集成研究,并为相关领域的数据挖掘与知识发现提供新的理论依据和技术支持。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

货币政策与汇率制度对国际收支的影响研究

货币政策与汇率制度对国际收支的影响研究

DOI:
发表时间:2022

白亮的其他基金

批准号:11401420
批准年份:2014
资助金额:22.00
项目类别:青年科学基金项目
批准号:60902094
批准年份:2009
资助金额:18.00
项目类别:青年科学基金项目
批准号:51208058
批准年份:2012
资助金额:25.00
项目类别:青年科学基金项目
批准号:61305073
批准年份:2013
资助金额:26.00
项目类别:青年科学基金项目
批准号:11326117
批准年份:2013
资助金额:3.00
项目类别:数学天元基金项目
批准号:81200207
批准年份:2012
资助金额:23.00
项目类别:青年科学基金项目

相似国自然基金

1

基于谱聚类的文本聚类集成方法研究

批准号:60975042
批准年份:2009
负责人:卢志茂
学科分类:F0603
资助金额:32.00
项目类别:面上项目
2

基于粗糙集的聚类集成方法研究

批准号:61603313
批准年份:2016
负责人:胡节
学科分类:F0607
资助金额:18.00
项目类别:青年科学基金项目
3

多视图半监督聚类集成方法及应用研究

批准号:61572407
批准年份:2015
负责人:杨燕
学科分类:F06
资助金额:63.00
项目类别:面上项目
4

面向高维数据集成降维的半监督聚类方法研究

批准号:61105048
批准年份:2011
负责人:曾洪
学科分类:F0603
资助金额:24.00
项目类别:青年科学基金项目