Multi-label data is widely existed in many application fields such as text analysis, bioinformatics, information retrieval, personalized recommendation and so on. The high dimensionality of the feature space and the label space is one of the key challenges for analyzing and processing multi-label data. Granular computing usually uses information granules as the basic units to describe, infer, and solve realistic problems from multiple views and multiple hierarchies, which has been proved to be one of the important tools for modeling and analyzing largescale complex data. In allusion to the large scale of the feature space and the label space, this project will use the idea of multi granularity divide and conquer to study the theory and algorithms of multigranulation rough computing for multi-label data. The main contents of the project are summarized as follows: (1)Granulating the label space and analyzing the correlation among label information granulations; (2)Minimal representation of label space in feature space based on multigranulation fusion rule; (3)Multi-label feature selecting based on dynamic granulation; (4)Designing effective multi-label ranking algorithms based on multigranulation fusion rule. The anticipative research results will not only provide some new approaches to analyzing and processing multi-label data, but also enrich multigranulation rough computing by expanding the scope of data applications. Thus, it has a very important theoretical significance and application value for data mining and knowledge discovery.
多标记数据广泛存在于文本分类学习、生物信息学、信息检索、个性化推荐等众多应用领域。高维的特征空间和标记空间是多标记数据分析与处理所面临的主要挑战之一。粒计算方法通过将复杂数据进行信息粒化,用信息粒代替样本作为计算的基本单元,从多个角度、多个层次出发对现实问题进行描述、推理与求解,已被证明是应对大规模复杂数据分析挑战的重要工具之一。本文针对多标记数据特征空间和标记空间的大规模性,拟采用多粒度分治处理的思路,开展多标记数据的多粒度粗糙计算理论与算法研究。主要内容包括:(1)标记信息粒化及其相关性分析;(2)基于多粒度信息融合的标记极小表示;(3)基于动态粒度的多标记特征选择算法;(4)基于多粒度信息融合的多标记排序算法。本项目研究成果将为面向多标记数据的知识发现提供新途径,拓展多粒度粗糙计算的数据适用范围,对数据挖掘和知识发现的研究有重要的理论意义和应用价值。
本项目以现实中广泛存在的多标记数据为研究对象,以粒计算、粗糙集等理论为基本工具,发展面向多标记数据的粒化和近似、属性约简、不确定性度量、多标记学习的粒计算新理论与新算法,主要研究成果如下:(1)在多标记数据属性约简方面,通过定义动态粒度下的多标记粗糙集下近似,证明了当粒度由粗变细时属性外部重要度的保序性, 设计了多标记数据属性约简加速算法。(2)在多标记数据的粒化和近似方面,定义了多标记粗糙集模型;在允许一定程度错分率的情况下,提出了变精度多标记粗糙集模型。(3)在多标记数据不确定性度量方面,基于多标记粗糙集模型的粒化近似机制,提出了有关多标记数据粗糙性和不确定性的多种度量概念,并证明了有关度量可归结为包含度。(4)在多标记数据学习算法方面,利用主成分分析方法对标记空间降维,并利用粗糙集属性约简方法对特征空间降维,提出了基于回归学习lasso算法的多标记学习算法。这些成果丰富了粒计算理论,为多标记数据分析与处理提供了新方法与新算法。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
温和条件下柱前标记-高效液相色谱-质谱法测定枸杞多糖中单糖组成
基于多模态信息特征融合的犯罪预测算法研究
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察
混合数据多粒度粗糙计算模型与算法研究
多标记数据的粒计算理论与算法研究
面向多模态数据的多粒度计算理论与方法
多维多粒度粗糙集模型和算法研究