Incomplete information processing is one of the important problems in machine learning (classification). Most incomplete data classification methods rely on assumptions about data missing mechanism or data distribution when establishing the learning model on the incomplete data. However, these assumptions are difficult to verify, and problem solving could be inefficiency once the assumptions are violated. Multi-granular computing could detect the data internal relation and impove problem solving performance through problem description and problem solving from various granularity. Representing incomplete data from different granularities based on granular computing, and then mining the hierarchical relationship of the known information could avoid the introducing of additional assumptions. Therefore, this project intends to adopt the Quotient Space Theory to study the problem of incomplete data classification. The research contents mainly include: (1) Study the missing pattern of incomplete data, then give the constructing method of multi-granularity hierarchical representation of incomplete information. (2) Study the granularity adjustment optimization and the selection and fusion optimization method from multi-granularity space. (3) Study the application of multi-granularity fusion in gene expression data. Through the above research, this paper can provide an efficient method without missing value imputation for incomplete data classification from granular computing perspective.
不完整信息处理是机器学习(分类)中的重要问题之一。不完整信息分类在建立学习模型时,大多需要依赖一些关于数据分布和缺失机制的假设。但是,此类假设很难验证,一旦不满足,问题的求解效率不高。多粒度计算通过不同粒度的问题描述和问题求解,能够有效挖掘数据之间的内在关联,提升问题求解的性能。基于粒计算对不完整信息进行多粒度的数据表示,通过挖掘已有信息的层次关系,避免引入额外的假设,提高求解效率。因此,本项目拟基于商空间粒计算理论对不完整信息的分类问题进行研究。主要研究内容包括:(1)研究不完整信息的缺失模式,给出不完整数据的多粒度层次表示模型构建方法。(2)研究该模型的粒度调整优化以及多粒度空间的优化选择与融合方法。(3)以基因表达数据为例研究多粒度融合在不完整数据中的应用示范。通过上述内容的研究,为不完整信息提供一种不依赖填充的基于粒计算视角的高效处理方法。
不完整数据分类是机器学习中一个重要而基础的研究内容。当前方法在建立学习模型时,大多需要依赖一些关于数据分布和缺失机制的假设,在实际应用中的求解效率不高。多粒度计算通过不同粒度的问题描述和问题求解,能够有效挖掘数据之间的内在关联,提升问题求解的性能。本项目基于商空间粒计算理论对不完整信息的分类问题展开研究。.(1)项目基于不完整信息的缺失模式,给出了不完整数据的多粒度层次表示模型构建方法,并在此基础上研究了基于局部邻域信息的数据修正方法。.(2)项目研究了基于相容关系的不完整信息的挖掘方法,通过属性核与约简,研究了几种模型的优化方案,通过冗余删除,多约简融合等手段,提升了模型效率。.(3)项目以癌症基因表达数据为示范,研究了高维数小样本场景下不完整数据的分类方法,提出了一种能够直接应用于不完整数据的卡方估计方法,并在此基础上研究了基于最优最先搜索策略的特征选择算法,在12个真实癌症基因表达数据集上对算法的性能进行了研究。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
基于多模态信息特征融合的犯罪预测算法研究
基于细粒度词表示的命名实体识别研究
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
面向不完整信息的多视图数据表示、恢复与学习
异质信息网络的多粒度表示与知识获取方法研究
基于多粒度信息粒化的数据分析方法及其应用研究
多粒度标记数据的知识表示和知识获取研究