Stability of feature selection from high dimensional data is an important yet under-addressed issue. Existing feature selection methods focus on improving the performance of classifiers, such as prediction accuracy, computational efficiency etc., and use these metrics to evaluate the quality of feature subsets produced by feature selection algorithms. Unfortunately, the results of feature selection algorithms might be unstable and unreliable in high-dimensional spaces because they are very sensitive to different variations in the data. In order to improve the stability and reliability of feature selection algorithms, this project analyzes the major causes of the instability by investigating the distribution of gene expression data in a high-dimensional space. ..The research merits of this project include: (1) A new stability measurement of feature selection is proposed based on the characteristics of high dimensional data distribution; (2) A feature evaluation criteria based on the classification objective function is presented through the analysis of classical feature selection algorithms; (3) A hidden variable model based feature selection algorithm is proposed by taking into account the correlation between the features; (4) A decomposition-based feature selection method for multiclass classification is designed for the localized data distribution; (5) A recursive local feature selection method is proposed under the paradigm of "clustering - feature selection" by taking into account the diversity of the intra-class distribution. The success of this project will significantly improve the stability of feature selection algorithms in high dimensional space, and will show potential practical values to real-world applications such as gene selection, gene regulatory networks, and cancer subtypes discovery.
高维特征选择的稳定性是一个重要而又尚未解决的难题。已有的特征选择研究主要关注学习机器的预测准确率和计算效率,以准确率及其相关指标作为评价特征选择结果的依据。然而在高维数据空间中,训练数据集上的微小变化会造成特征选择结果的不稳定和不可靠。本项目以基因表达数据为研究对象,从高维数据空间和基因表达数据的分布特点出发,分析高维数据特征选择不稳定性的可能来源,以改善其稳定性和可靠性。.研究内容包括:通过分析高维数据分布的特点,建立特征选择的稳定性指标;通过对经典特征选择算法的分析,研究基于目标函数的特征评价准则;考虑到特征之间的关联性,提出基于隐变量模型的特征选择策略;针对数据分布的局部性,设计基于分解的多分类特征选择方法;进一步考虑到类内分布的多样性,提出"聚类-特征选择"的递归式局部特征选择策略。本项目的研究成果将提升高维特征选择的稳定性,并将应用到基因选择、基因调控网络和癌症亚型的发现中。
本项目针对高维特征选择的稳定性问题,以基因表达数据为研究对象,从高维数据的特点出发,分析特征选择不稳定性的可能来源,进而提出相关方案以改善其稳定性。针对基因表达数据特征选择的稳定性问题,提出一系列新的思想、研究方案和算法;在Matlab平台上实现了已有的基因表达数据分析的若干经典特征选择算法,并设计实现了若干种分别基于支持向量机和随机森林的新算法;进而针对非平衡分类、多示例学习、聚类等问题,开展了深入研究;针对基因表达数据、微生物群落的高通量测序数据以及其他高维数据,进行应用研究。本项目按计划实现了预期研究目标和任务,发表SCI或者EI检索的论文17篇,接收1篇,其中JCR3区以上期刊论文10篇,国际会议论文6篇。.(1)对高维空间中数据分布特点和距离度量函数进行了研究,结果表明,高维空间中数据分布的稀疏性特点导致不同度量函数结果的差异性。提出了随机森林算法特征选择的内在稳定性问题,分析了其建模过程中随机机制的影响,对比分析了参数、数据集特点和数据扰动的影响,揭示了随机森林内部存在的不稳定性;考虑到集成学习算法的间隔理论,根据特征对随机森林的间隔分布的影响设计了新的特征选择算法;提出一种基于集成学习的Multi-relief-F算法,结果更加稳定。 .(2) 提出一种新的特征选择算法框架(ARFS),利用Kolmogorov算法随机性检测,评价特征的重要性。分别设计了ARFS-RF,ARFS-SVM和ARFS-NB算法;提出一种随机森林特征选择的递归特征消除算法。.(3)提出了基于类分解的特征选择算法。针对数据非平衡问题,提出了基于类分解的非平衡特征选择算法,进一步提出采用聚类算法进行分解。结果验证了项目书提出的猜想,即寻找全局的特征子集是不必要的,在某些情形下甚至是错误的。 基于分解的特征选择比全局的特征选择算法有更好的稳定性;.(4)探讨了多标记学习问题中的特征选择稳定性问题。通过引入Conformal Predictor,提出一种新的多标记学习算法; .(5)探讨了聚类集成中差异性和质量对集成效果的影响,结果表明,在聚类成员质量达到一定程度后,差异性起到了更大的作用。据此设计了2种新的聚类集成算法: RS-NN和FS-RS-NN;.(6)对基因表达数据的预处理、基于物种相似性的真核生物基因注解、微生物种群的高通量测序数据等问题开展了应用研究。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
监管的非对称性、盈余管理模式选择与证监会执法效率?
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于特征聚类的高维混合属性数据特征选择方法
基于量子进化算法和模型组合的高维数据特征选择
面向高维混合数据的信息粒化与特征选择研究
基于自生式多目标Memetic算法的高维数据特征选择研究