The existing numerous uncertain data structure in big data has brought a great challenge to the cluster analysis task. Rough Set Theory (RST) is an efficient mathematical tool to deal with incomplete, inaccurate and uncertain data. It has been widely applied in the field of machine learning and knowledge discovery, etc. Aiming at the uncertainty of cluster structures in big data, this project plans to combine RST and cluster ensemble analysis technology, study the theoretical framework of cluster ensemble based on RST, construct soft cluster ensemble model under RST and develop efficient algorithms of RST-based soft cluster ensemble. The main contents of the project include: 1) Exploration on models and approaches of RST-based multi-granularity cluster ensemble; 2) Research on the consensus measure of soft clustering members under RST; 3) Investigation of models and approaches of semi-supervised cluster ensemble based on RST. The solution of these problems not only can make full use of the advantage of RST to solve the uncertainty problem, enhance the ability to understand the uncertain cluster structure in big data, provide new theoretical framework and methods to cluster ensemble analysis for uncertain data and further promote the development of cluster ensemble learning techniques, but also can expand the application of RST, contribute to the realization of data value-added services and improve people's decision-making.
大数据中大量存在着的不确定数据结构给聚类分析任务带来了巨大挑战。粗糙集是一种处理不完全、不精确与不确定数据的有效数学工具,已被广泛地应用于机器学习与知识发现等领域。本项目针对大数据中类簇结构的不确定性现象,拟将粗糙集理论和聚类集成分析技术相结合,探讨基于粗糙集解决聚类集成问题的理论框架,构建基于粗糙集的软聚类集成模型,设计基于粗糙集的软聚类集成高效算法。具体内容包括:1)基于粗糙集的多粒度聚类集成模型与方法研究;2)基于粗糙集的软聚类成员一致性度量方法研究;3)半监督粗糙聚类集成模型与方法研究。这些问题的解决不仅可以充分利用粗糙集解决不确定性问题的优势来提升对大数据中不确定性数据结构的逼近理解,为不确定性数据的聚类集成分析提供新型理论框架和新方法,进一步促进聚类集成学习技术的发展,而且可以拓展粗糙集理论的应用范围,并有助于实现数据增值服务和提高人们决策水平。
如何对现实生活中存在的不确定数据结构进行聚类分析已经成为当前非监督学习领域中的一个热点问题。本项目以高效聚类集成方法为研究目标,结合粗糙集理论和聚类分析技术对基于粗糙集的聚类集成方法进行研究,主要取得了以下成果:(1)提出了基于粗糙集的增量式模糊聚类集成方法;(2)给出了三种基于粗糙集的高效动态属性约简方法;(3)设计了两种基于非监督学习的特征选择方法;(4)提出了一系列多视图聚类方法和半监督聚类集成方法;(5)提出了基于粗糙集的近似集增量更新方法。所有方法性能评测结果均显示优良。本项目共发表学术论文14篇,其中SCI检索论文10篇(1篇入选ESI高被引论文),国际会议论文4篇(EI两篇);已接收SCI期刊论文1篇,已接收EI国际会议论文4篇;申请专利4项。协助承办了国际研讨会1次和国内学术会议3次,培养了多名研究生,1人获得省级科技奖2次和国家留学基金委公派访问学者资助。 这些成果促进了粗糙集在非监督学习领域的应用,为不确定性数据的聚类集成分析提供了新型理论框架和方法。
{{i.achievement_title}}
数据更新时间:2023-05-31
服务经济时代新动能将由技术和服务共同驱动
基于混合优化方法的大口径主镜设计
卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比
三级硅基填料的构筑及其对牙科复合树脂性能的影响
瞬态波位移场计算方法在相控阵声场模拟中的实验验证
基于谱聚类的文本聚类集成方法研究
带参照物的聚类集成方法研究
基于鲁棒集成学习的一致性聚类方法研究
基于矩阵低秩近似的大规模文本聚类集成方法研究