Feature selection is an important data preprocessing technique in data mining. The complex structure of multi-modality data poses a great challenge for the existing feature selection methods. For the inconsistency of multi-modality data, we employ rough set theory to investigate feature selection and its incremental algorithm for multi-modality data sets. Specifically, two aspects need to be investigated. Based on the distance between samples of multi-modality data that is computed by the mutli-modal metric learning method, we construct the neighbor granular structures and neighborhood rough set model for multi-modality data, formulate the framework of feature selection for multi-modality data based on the relative discernible relation, and develop a feature selection algorithm based on the hybrid search in the sample space and feature space. In order to deal with multi-modality data streaming, we study the active sample selection scheme to filter out the useless incoming samples, analyze the incremental feature selection process for useful incoming samples, and develop the active sample selection based incremental feature selection algorithm for multi-modality data by integrating the active sample selection scheme and the incremental feature selection process. The research results will extend the application of rough set theory, and provide a novel theory and method for multi-modality data analysis.
特征选择是数据挖掘中一个至关重要的数据预处理技术,而多模态数据的复杂结构对现有特征选择方法带来了巨大的挑战。本项目将针对多模态数据中的不一致性,在粗糙集理论的框架下,对多模态数据的特征选择及增量算法展开研究。具体内容包括:在用多模态度量学习方法计算的多模态数据样本之间距离的基础上,构建面向多模态数据的邻域粒结构和邻域粗糙集模型,建立基于邻域相对辨识关系的多模态数据特征选择的理论框架,设计基于样本空间与特征空间混合搜索的多模态数据特征选择算法;为处理多模态数据流,研究过滤无用样本的主动样本选择机制,对有用样本研究增量特征选择过程,通过融合主动样本选择机制和增量特征选择过程,设计基于主动样本选择的增量特征选择算法。本项目的研究成果将拓宽粗糙集的数据适用范围,为多模态数据的处理提供一种新的理论与方法。
特征选择是数据挖掘中一个至关重要的数据预处理技术,而多模态数据的复杂结构对现有特征选择方法带来了巨大的挑战。粗糙集理论能有效挖掘数据中的不一致性和不确定性,对复杂数据的特征选择提供了一种新的手段。本项目基于粗糙集理论对多模态数据的特征选择及其增量算法展开了一系列研究,主要研究成果包括如下:(1)针对由符号型、名义型和数值型特征构成的多模态数据集,分别从模糊粗糙集信息熵的加速机制和采用模糊下近似值对样例进行筛选的角度提出了基于模糊信息熵的快速特征选择算法,有效地节省了多模态数据集特征选择的计算时间;(2)针对由符号型和数值型特征构成的多模态数据流,基于模糊粗糙集产生的模糊颗粒的信息覆盖,研究了从新加入样例中主动筛选代表样例的机制,并基于模糊粗糙集信息熵刻画了多模态数据流特征选择的增量机理,进而设计了基于模糊粗糙集的多模态数据流的主动增量特征选择方法;(3)针对由符号型和数值型特征构成的多模态数据流,定义了可区分邻域个数,利用该不确定性度量构造多模态数据的特征选择框架,研究了多模态数据流的增量特征选择机制,进而设计了多模态数据流的增量特征选择算法;(4)针对单一模态数据集,定义了可区分样例个数的概念,利用该不确定性度量定义了特征选择的新框架,设计了样例过滤机制以减少样例空间的搜索范围,研究了特征搜索的准则以减少特征空间的搜索范围,通过整合样例过滤机制和特征搜索准则,设计了样例和特征空间搜索范围不断减少的单一模态数据增量特征选择算法;(5)针对含有符号型、名义型、缺省型、区间型、数值型等特征构成的多模态数据流,构造了覆盖粗糙集相对辨识关系的特征选择框架,在此框架下研究了多模态数据流的增量特征选择机制,设计了两个多模态数据流的增量特征选择算法。.本项目已经基本完成了各项研究内容,项目的研究成果为多模态数据特征选择算法提供了一个崭新的思路和视角,同时也拓宽了粗糙集的数据适用范围。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
面向复杂数据的动态决策粗糙集及其高效特征选择方法研究
多标记数据分类及其特征选择算法研究
粗糙集中带约束的特征选择高效算法研究
面向大数据的半监督粗糙特征选择高效算法研究