面向多模态数据的粗糙集特征选择及其增量算法研究

基本信息
批准号:61806108
项目类别:青年科学基金项目
资助金额:17.00
负责人:杨燕燕
学科分类:
依托单位:清华大学
批准年份:2018
结题年份:2020
起止时间:2019-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:刘连臣,徐晶,赵晗,石文杰,胡航恺,岳凡
关键词:
属性约简大数据下的粗糙集粗糙集模型决策信息系统
结项摘要

Feature selection is an important data preprocessing technique in data mining. The complex structure of multi-modality data poses a great challenge for the existing feature selection methods. For the inconsistency of multi-modality data, we employ rough set theory to investigate feature selection and its incremental algorithm for multi-modality data sets. Specifically, two aspects need to be investigated. Based on the distance between samples of multi-modality data that is computed by the mutli-modal metric learning method, we construct the neighbor granular structures and neighborhood rough set model for multi-modality data, formulate the framework of feature selection for multi-modality data based on the relative discernible relation, and develop a feature selection algorithm based on the hybrid search in the sample space and feature space. In order to deal with multi-modality data streaming, we study the active sample selection scheme to filter out the useless incoming samples, analyze the incremental feature selection process for useful incoming samples, and develop the active sample selection based incremental feature selection algorithm for multi-modality data by integrating the active sample selection scheme and the incremental feature selection process. The research results will extend the application of rough set theory, and provide a novel theory and method for multi-modality data analysis.

特征选择是数据挖掘中一个至关重要的数据预处理技术,而多模态数据的复杂结构对现有特征选择方法带来了巨大的挑战。本项目将针对多模态数据中的不一致性,在粗糙集理论的框架下,对多模态数据的特征选择及增量算法展开研究。具体内容包括:在用多模态度量学习方法计算的多模态数据样本之间距离的基础上,构建面向多模态数据的邻域粒结构和邻域粗糙集模型,建立基于邻域相对辨识关系的多模态数据特征选择的理论框架,设计基于样本空间与特征空间混合搜索的多模态数据特征选择算法;为处理多模态数据流,研究过滤无用样本的主动样本选择机制,对有用样本研究增量特征选择过程,通过融合主动样本选择机制和增量特征选择过程,设计基于主动样本选择的增量特征选择算法。本项目的研究成果将拓宽粗糙集的数据适用范围,为多模态数据的处理提供一种新的理论与方法。

项目摘要

特征选择是数据挖掘中一个至关重要的数据预处理技术,而多模态数据的复杂结构对现有特征选择方法带来了巨大的挑战。粗糙集理论能有效挖掘数据中的不一致性和不确定性,对复杂数据的特征选择提供了一种新的手段。本项目基于粗糙集理论对多模态数据的特征选择及其增量算法展开了一系列研究,主要研究成果包括如下:(1)针对由符号型、名义型和数值型特征构成的多模态数据集,分别从模糊粗糙集信息熵的加速机制和采用模糊下近似值对样例进行筛选的角度提出了基于模糊信息熵的快速特征选择算法,有效地节省了多模态数据集特征选择的计算时间;(2)针对由符号型和数值型特征构成的多模态数据流,基于模糊粗糙集产生的模糊颗粒的信息覆盖,研究了从新加入样例中主动筛选代表样例的机制,并基于模糊粗糙集信息熵刻画了多模态数据流特征选择的增量机理,进而设计了基于模糊粗糙集的多模态数据流的主动增量特征选择方法;(3)针对由符号型和数值型特征构成的多模态数据流,定义了可区分邻域个数,利用该不确定性度量构造多模态数据的特征选择框架,研究了多模态数据流的增量特征选择机制,进而设计了多模态数据流的增量特征选择算法;(4)针对单一模态数据集,定义了可区分样例个数的概念,利用该不确定性度量定义了特征选择的新框架,设计了样例过滤机制以减少样例空间的搜索范围,研究了特征搜索的准则以减少特征空间的搜索范围,通过整合样例过滤机制和特征搜索准则,设计了样例和特征空间搜索范围不断减少的单一模态数据增量特征选择算法;(5)针对含有符号型、名义型、缺省型、区间型、数值型等特征构成的多模态数据流,构造了覆盖粗糙集相对辨识关系的特征选择框架,在此框架下研究了多模态数据流的增量特征选择机制,设计了两个多模态数据流的增量特征选择算法。.本项目已经基本完成了各项研究内容,项目的研究成果为多模态数据特征选择算法提供了一个崭新的思路和视角,同时也拓宽了粗糙集的数据适用范围。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

杨燕燕的其他基金

相似国自然基金

1

面向复杂数据的动态决策粗糙集及其高效特征选择方法研究

批准号:61602327
批准年份:2016
负责人:罗川
学科分类:F0607
资助金额:21.00
项目类别:青年科学基金项目
2

多标记数据分类及其特征选择算法研究

批准号:61100119
批准年份:2011
负责人:刘华文
学科分类:F0607
资助金额:22.00
项目类别:青年科学基金项目
3

粗糙集中带约束的特征选择高效算法研究

批准号:61572406
批准年份:2015
负责人:陈红梅
学科分类:F0607
资助金额:63.00
项目类别:面上项目
4

面向大数据的半监督粗糙特征选择高效算法研究

批准号:61402272
批准年份:2014
负责人:王锋
学科分类:F0607
资助金额:26.00
项目类别:青年科学基金项目