Feature selection is to detect the minimum number of features which are informative and with maximum influence to response from the original ones of data. It is the basis for causal analysis, key element assessment, and prediction. Although feature selection has been widely studied, its applications and validity to big data are faced with some challenges, such as the small number of samples with high dimensions for each, false correlations between features, and the great number of samples with very high dimensions for each. ..This proposal will focus on the challenges of feature selection in big data. It will first tackle the problem of small number of samples with high dimensions for each, and will study what is the lower bound of the number of samples to find the correct feature subset, and propose the new valid method to accomplish feature selection by using l(p) regularization. Then it will tackle the false correlation between features, and will study the feasibility of using feature clustering to overcome the false correlation between features, and will propose the efficient feature selection algorithms by grouping features. Finally it will tackle the third challenge of the great number of samples with very high dimensions for each, and will study the possibility of applying the data decomposition, variable grouping and random projection techniques to feature selection for the big data, and will propose the distributive variable selection algorithms to accomplish the feature selection for big data. All the proposed new theoretics and new algorithms will be applied to colon data analysis, so that the key elements of colon will be detected. The applications will test the new theoretics and algorithms which will be proposed in this proposal, and will provide the methodological support for medical doctors to diagnose colon patients.
特征选择旨在从数据原始特征中发现最富有表达意义、对响应最具影响的少数特征,它是因果分析、关键要素判断、预测预报的基础。该问题虽然已有广泛研究,但在大数据背景下其可应用性与有效性面临挑战,这些挑战最突出地表现为“高维小样本、特征伪相关、高维大样本”三类问题。.本项目针对大数据背景下特征选择的这三个挑战性问题开展研究。在高维小样本情形,研究变量可正确选择所需的最小样本数,提出经由l(p)正则化实现特征选择的有效新方法;在特征伪相关方面,研究运用特征聚类克服所选特征伪相关的可行性,提出经由特征聚类的特征选择高效方法;在高维大样本情形,研究数据分解、变量分组与随机投影等技巧的应用可能性,提出可实施大数据特征选择的分布式可行算法。所提出的新理论与新算法将被应用到结肠癌数据分析,以帮助确定结肠癌的关键要素。应用既将对项目所提出的新理论与新算法进行验证,并同时为医生的结肠癌患者诊断提供方法论支撑。
特征选择旨在从数据原始特征中发现最富有表达意义、对响应最具影响的少数特征,它是因果分析、关键要素判断、预测预报的基础。该问题虽然已有广泛研究,但在大数据背景下其可应用性与有效性面临挑战,这些挑战最突出地表现为“高维小样本、特征伪相关、高维大样本”三类问题。本项目针对大数据背景下特征选择的这三个挑战性问题开展研究。.在高维小样本情形,提出了适用于两类和多类高维小样本数据的基于l(p)正则化思想特征选择新算法,特别是针对不平衡的高维小样本数据的特征选择新算法,研究结果发现:正确实现特征选择需要的最少样本数等于要选择的特征数;特征权重度量采用基因与类标相关性减去基因间冗余性更合适;特征子集分类能力度量需要同时考虑正负类信息,不能仅考虑分类准确率;集成的特征选择算法可以一定程度上解决特征选择中的特征子集不稳定问题。.在特征伪相关方面,研究了采用聚类思想克服特征伪相关的可性行,提出了多种基于不同聚类思想的高效特征选择算法,同时作为辅助研究,提出了基于局部标准差的密度峰值聚类算法、自适应的密度峰值聚类算法,以及基于局部标准差的自适应谱聚类算法和完全自适应的谱聚类算法,并对聚类结果评价指标进行研究,提出了3种新的聚类结果评价指标。.在高维大样本情形,提出了采用样本聚类和特征聚类进行数据和变量分组,实现高维大数据分布式特征选择的思想。提出了通用的2D空间特征选择框架,该框架适用于任意维度、任意规模数据的特征选择,既适用于有监督特征选择,也适用无监督特征选择,并使特征选择过程可视化。.所提出的新理论与新算法被应用到结肠癌数据分析,发现了结肠癌患者的识别基因,验证了提出的新理论和新算法,并为医生的结肠癌患者诊断提供方法论支撑。研究成果也为其他癌症患者的识别基因发现提供了方法指导,并被应用于临床数据肝硬化门脉高压症脾切除加贲门断流术患者的门静脉系统血栓形成的临床关键因素识别,为临床医生提供了帮助。
{{i.achievement_title}}
数据更新时间:2023-05-31
三级硅基填料的构筑及其对牙科复合树脂性能的影响
基于相似日理论和CSO-WGPR的短期光伏发电功率预测
分层地质类材料靶体抗超高速侵彻模型实验
顾及功能语义特征的建筑物空间分布模式识别方法
植物中蛋白质S-酰化修饰的研究进展
独立分量分析算法及其在高维数据特征提取中应用研究
特征选择因子分析方法及其在开路傅立叶变换红外光谱数据解析中的应用
多标记数据分类及其特征选择算法研究
基于背景知识的数据挖掘方法及其在LAMOST中的应用