不完整信息的多粒度数据表示及其优化方法研究

基本信息
批准号:61806002
项目类别:青年科学基金项目
资助金额:25.00
负责人:严远亭
学科分类:
依托单位:安徽大学
批准年份:2018
结题年份:2021
起止时间:2019-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:杜秀全,余成进,吴增宝,刘瑞清,吴亚亚,殷素素
关键词:
层次表示多粒度计算商空间多粒度融合
结项摘要

Incomplete information processing is one of the important problems in machine learning (classification). Most incomplete data classification methods rely on assumptions about data missing mechanism or data distribution when establishing the learning model on the incomplete data. However, these assumptions are difficult to verify, and problem solving could be inefficiency once the assumptions are violated. Multi-granular computing could detect the data internal relation and impove problem solving performance through problem description and problem solving from various granularity. Representing incomplete data from different granularities based on granular computing, and then mining the hierarchical relationship of the known information could avoid the introducing of additional assumptions. Therefore, this project intends to adopt the Quotient Space Theory to study the problem of incomplete data classification. The research contents mainly include: (1) Study the missing pattern of incomplete data, then give the constructing method of multi-granularity hierarchical representation of incomplete information. (2) Study the granularity adjustment optimization and the selection and fusion optimization method from multi-granularity space. (3) Study the application of multi-granularity fusion in gene expression data. Through the above research, this paper can provide an efficient method without missing value imputation for incomplete data classification from granular computing perspective.

不完整信息处理是机器学习(分类)中的重要问题之一。不完整信息分类在建立学习模型时,大多需要依赖一些关于数据分布和缺失机制的假设。但是,此类假设很难验证,一旦不满足,问题的求解效率不高。多粒度计算通过不同粒度的问题描述和问题求解,能够有效挖掘数据之间的内在关联,提升问题求解的性能。基于粒计算对不完整信息进行多粒度的数据表示,通过挖掘已有信息的层次关系,避免引入额外的假设,提高求解效率。因此,本项目拟基于商空间粒计算理论对不完整信息的分类问题进行研究。主要研究内容包括:(1)研究不完整信息的缺失模式,给出不完整数据的多粒度层次表示模型构建方法。(2)研究该模型的粒度调整优化以及多粒度空间的优化选择与融合方法。(3)以基因表达数据为例研究多粒度融合在不完整数据中的应用示范。通过上述内容的研究,为不完整信息提供一种不依赖填充的基于粒计算视角的高效处理方法。

项目摘要

不完整数据分类是机器学习中一个重要而基础的研究内容。当前方法在建立学习模型时,大多需要依赖一些关于数据分布和缺失机制的假设,在实际应用中的求解效率不高。多粒度计算通过不同粒度的问题描述和问题求解,能够有效挖掘数据之间的内在关联,提升问题求解的性能。本项目基于商空间粒计算理论对不完整信息的分类问题展开研究。.(1)项目基于不完整信息的缺失模式,给出了不完整数据的多粒度层次表示模型构建方法,并在此基础上研究了基于局部邻域信息的数据修正方法。.(2)项目研究了基于相容关系的不完整信息的挖掘方法,通过属性核与约简,研究了几种模型的优化方案,通过冗余删除,多约简融合等手段,提升了模型效率。.(3)项目以癌症基因表达数据为示范,研究了高维数小样本场景下不完整数据的分类方法,提出了一种能够直接应用于不完整数据的卡方估计方法,并在此基础上研究了基于最优最先搜索策略的特征选择算法,在12个真实癌症基因表达数据集上对算法的性能进行了研究。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
3

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022

严远亭的其他基金

相似国自然基金

1

面向不完整信息的多视图数据表示、恢复与学习

批准号:61603193
批准年份:2016
负责人:杨琬琪
学科分类:F0603
资助金额:21.00
项目类别:青年科学基金项目
2

异质信息网络的多粒度表示与知识获取方法研究

批准号:61876001
批准年份:2018
负责人:赵姝
学科分类:F0605
资助金额:62.00
项目类别:面上项目
3

基于多粒度信息粒化的数据分析方法及其应用研究

批准号:61572242
批准年份:2015
负责人:杨习贝
学科分类:F0607
资助金额:63.00
项目类别:面上项目
4

多粒度标记数据的知识表示和知识获取研究

批准号:61075120
批准年份:2010
负责人:吴伟志
学科分类:F0607
资助金额:35.00
项目类别:面上项目