With the coming of big data, large-scale data sets which contain only a small number of labeled samples are acquired in many practical applications, especially for biology, medicine and chemistry. Feature selection is an extremely significant data preprocessing technique in data mining. And the above “small labeled sample problems” brings new challenges for traditional feature selection approaches. The project aims to comprehensively investigate features selection for big data with small labeled samples, and construct efficient and feasible semi-supervised rough feature selection approaches. Its contents include four problems. 1) Defining uncertainty and feature significance in the context of semi-supervised. 2) Designing efficient semi-supervised rough feature selection approaches for large-scale data sets. 3) Constructing efficient semi-supervised rough feature selection approaches for high dimensional data sets. 4) Developing efficient semi-supervised rough feature selection approaches for dynamic data sets. The results of the project hopefully provide new ways for knowledge discovery of big data and can be applied in many areas such as medical diagnosis, bioengineering and social computing.
随着大数据时代的到来,许多实际应用领域中存在着只含有少量有标记数据的海量高维数据集,尤其在生物、医学以及化学等领域中更为常见。特征选择是数据挖掘中一个极其重要的数据预处理技术,而上述的“少标记数据问题”也为传统特征选择方法带来了全新的挑战。本项目拟针对大数据背景下的少标记数据集的特征选择展开系统研究,构造一系列高效可行的半监督粗糙特征选择方法。具体内容:1)定义半监督意义下的不确定性和特征重要度;2)设计面向大规模数据集的半监督粗糙特征选择高效方法;3)构造面向高维数据集的半监督粗糙特征选择高效方法;4)发展面向动态数据集的半监督粗糙特征选择高效方法。本项目的研究成果有望为大数据背景下的知识发现提供可以借鉴的新思路,并能在医疗诊断、生物工程、社会计算等领域得到应用。
大数据时代的到来,许多实际应用领域中存在着只含有少量有标记数据的海量高维数据集,这为传统数据挖掘技术带来了全新的挑战。本项目针对大数据背景下的少标记数据集的高效特征选择展开系统的研究,并取得了以下几方面的重要研究成果:(1) 分析并讨论了几种常见信息熵之间的联系和差异,为基于信息熵的数据处理技术提供了基础;(2) 深入探索了动态数据集中信息熵的变化,并据此设计了面向动态数据集的一系列高效动态特征选择搜索策略;(3) 进一步讨论了混合型数据集中信息熵的表示,分别设计了面向混合型数据的聚类算法和高效特征选择算法;(4) 结合粗糙集理论和信息熵的概念,借助半监督学习机制,构造了基于信息熵的半监督高效特征选择算法。这些主要研究成果为数据降维、粒度计算,数据挖掘等领域的研究提供了可以借鉴的新思路和途径,对面向少量标记数据、动态数据以及混合型数据的研究有着重要的理论意义和研究价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应
面向多模态数据的粗糙集特征选择及其增量算法研究
面向复杂数据的动态决策粗糙集及其高效特征选择方法研究
粗糙集中带约束的特征选择高效算法研究
中医CPG共识专家多视角数据半监督特征选择方法研究