In modern society, data scale is growing faster and faster and data type becomes more and more complex, which brings many challenges for classical data mining methods. These challenges include: the semantic gap between different modalities, correlation analysis difficulty and inefficiency of data mining algorithms. Multigranulation computing is an effective strategy of human problem solving, and its paradigm and modal data mining framework is highly consistent. It is very feasible to research multi-modality data mining with multigranulation computing together. To solve the challenges coming from multi-modality data, this project will systematically study multigranulation computing theory and methods for multi-modality data. Specifically, main contents of the project include: (1) Explore the granulation mechanism of multi-modality data, and give a series of information granulation algorithms; (2) Study methods of measuring correlations between multi-modality attributes, establish several algorithms of mining non-classical correlation analysis; (3) Build multigranulation model discovery and fusion approaches for multi-modality data; (4) Based on network multimedia data, develop an application demonstration for topic discovery and classification. Aiming at key scientific issues of data mining with multi-modality data, the results of this project will establish a theory and method system of multigranualtion computing for multi-modality data, which have important theoretical and applicable significance in related areas such as data mining and knowledge discovery.
目前,数据规模快速增长、多模态性凸显,传统数据挖掘方法遇到极大挑战,主要表现在:不同模态特征之间具有语义鸿沟、关联分析困难以及挖掘算法效率不能满足需求。多粒度计算是人类复杂问题求解的有效策略,且多粒度计算范式与多模态数据挖掘框架高度契合,将多模态数据挖掘与多粒度计算紧密结合开展研究具有可行性。本项目将应对多模态数据挖掘面临的挑战,系统开展多模态数据的多粒度计算理论与方法研究。具体内容包括:(1)探索多模态数据的粒化机理,给出系列有效信息粒化算法;(2)研究多模态变量之间的关联关系度量方法,发展若干非典型关联关系挖掘方法;(3)探索面向多模态数据的多粒度模式发现与融合方法;(4)以网络多媒体数据为载体,在主题发现与分类方面开展应用示范。本项目瞄准多模态数据挖掘的核心科学问题,将形成一套多模态数据的多粒度计算基础理论与方法体系,对数据挖掘与知识发现等相关领域的研究具有重要的理论意义和应用价值。
数据的多模态性、大规模性和快速增长性混合存在给高效数据挖掘带来了巨大挑战,项目围绕这些挑战展开了多粒度计算的核心基础科学问题研究,从理论方法、示范应用两个层面进行了深入分析。重要结果包括:.(1)提出多模态数据粒化机理的方法,主要包括:基于样本稳定性的聚类方法;基于直觉模糊粗糙集的粒度结构及特征选择;类簇质量评估和选择性聚类集成;消除随机一致性的机器学习理论与方法等,为基于粒计算的多模态数据挖掘奠定基础。.(2)给出多模态数据关联关系挖掘方法,主要包括:复杂关联关系挖掘的粒计算理论;关联关系挖掘新视角;基于关联约束的对抗跨模态检索算法等,为多模态变量之间的关联关系度量与发现提供新见解。.(3)建立多粒度模式发现融合方法,主要包括:基于最优粒度选择的三维形貌重建方法;基于证据理论的多粒度融合策略;聚类集成的生长树模型;多粒度融合的三维形貌重建方法等,可有效增强多模态数据语义融合的性能。.(4)构建网络多媒体数据应用示范方法,主要包括:基于邻域粗糙集特征提取方法的肿瘤分类;学术成果网络中师生关系挖掘;科研合作者潜力预测等,为理论方法提供真实数据环境的实验验证。.项目执行期间,在国内外期刊共发表文章50余篇,其中发表SCI检索论文27篇(SCI1区1篇,SCI2区15篇,SCI3区9篇;TOP7篇;CCFA类5篇,CCFB类16篇),发表中文一级主学报论4篇。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于多模态信息特征融合的犯罪预测算法研究
面向云工作流安全的任务调度方法
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
TGF-β1-Smad2/3信号转导通路在百草枯中毒致肺纤维化中的作用
面向多源数据的多粒度计算方法研究
面向领域的多粒度动态海量数据挖掘理论模型与方法
多标记数据的多粒度粗糙计算理论与算法研究
面向混合数据的粒度计算理论与方法研究