There is a chasm between symbolic learning working with knowledge and statistical learning working with data in traditinal methods of high-dimensional and small sample size data processing, which results in worse processing performance and interpretability of the traditional processing methods for high-dimensional and small sample size data. This project analyzes and studies high-dimensional and small sample size data from three layers, data, model and algorithm, by incorporating priori constraints into particle swarm optimization (PSO) and extreme learning machine (ELM). To begin with, some priori informations (constraints) related to feature distribution and function behind high-dimensional and small sample size data are extracted by using statistical and cluster methods. Then, PSO encoding the priori constraints with different strategies is used to perform feature selection of high-dimensional and small sample size data. Thirdly, a ensemble ELM model is established by combining PSO with hybrid voting coupling the priori constraints. Finally, based on the above data and model, the performance of the individual ELM in the ensemble model is improved by encoding the priori constraints. The project mainly studies high-dimensional and small sample size gene express profile, and tests and perfects the proposed method in the processing of gene expression profile. Since the priori constraints are considered in this study, the proposed methods in this project not only increase the processing accuracy and rate of high-dimensional and small sample size data, but also increase the transparency of machine learning. This project is an applicative fundamental research related to machine learning. The further study of this project may bring about new development of the field of intelligent information processing, and promote the development of other industry in national ecnomic.
传统的高维小样本数据处理方法将面向知识的符号学习与面向数据的统计学习对立,因而其处理性能不高、可解释性差。本项目结合先验约束运用粒子群优化(PSO)和极端学习机(ELM)从数据层、模型层和算法层上对高维小样本数据的处理进行研究。首先,用统计和聚类分析方法提取高维小样本数据中蕴含的特征分布和功能等先验信息(约束)。其次,用多种策略将先验约束编码进PSO进行特征选择。再次,将PSO与编码先验约束的混合投票方法相结合建立集成ELM模型。最后,在数据和模型的基础上,编码先验约束提高各ELM的性能。本项目以高维小样本的基因表达谱数据为研究对象,在对其处理中检验完善提出的方法。由于编码了问题中的先验约束,本课题的研究不但能提高高维小样本数据处理精度和速度,还大大增强机器学习的透明性。该课题为与机器学习有关的应用基础研究,它的深入研究必将给智能信息处理等领域带来新的发展,并促进国民经济其它行业的发展。
传统的高维小样本数据处理方法将面向知识的符号学习与面向数据的统计学习对立,因而其处理性能不高、可解释性差。本课题结合先验约束运用粒子群优化(PSO)和极端学习机(ELM)从数据层、模型层和算法层上对高维小样本数据的处理进行研究。本课题以高维小样本的基因表达谱数据为研究对象,主要工作包括:(1)高维小样本数据中先验信息获取方法研究;(2)基于先验信息和PSO的高维小样本数据特征选择方法研究;(3)基于PSO和差异性信息的集成ELM研究;(4)基于先验信息和PSO的ELM研究;(5)基于确定性搜索的混合PSO研究。. 本课题在基因表达谱数据处理上取得了优于经典方法的性能,主要体现在:. (1)相对于经典的基因选择方法,本课题在多个基因表达谱数据集上选出了更低冗余的与肿瘤类别高相关的关键基因子集,且选出的基因具有较强的可解释性。如在Leukemia,Colon,SRBCT,LUNG,Brain cancer,Lymphoma数据集上筛选出的关键基因子集大小依次仅为3,6,6,9,6,8;各种单分类器(K近邻法、SVM、ELM)在本课题选出的基因子集上肿瘤识别准确率远高于它们在经典方法选出的基因子集上的肿瘤识别率。. (2)本课题能识别出新的与肿瘤类别相关的关键基因,如Leukemia数据集中基因X03934,Colon数据集中基因U37012,SRBCT数据集中基因183337,Brain cancer数据集中基因L25270等,从而为医学临床诊断提供理论支持。. (3)相对于经典的基因表达谱数据分类方法(如SVM,MLP,K近邻法等),基于PSO与差异性信息的集成ELM在多个基因表达谱数据集上的识别率有了大大提高,在Leukemia、SRBCT和LUNG表达谱数据集上识别率均达到100%。. 本课题以高维小样本的基因表达谱数据为研究对象,通过将先验信息编码进基因选择和肿瘤识别过程中,有效提高了肿瘤识别准确率并能识别出与肿瘤类别高相关的关键基因,为临床上肿瘤诊断提供有力支持。本课题提出的理论方法可以直接应用于其它高维小样本数据处理上,从而具有良好的应用前景。本课题有效地将符号学习与统计学习相结合,为高维小样本数据的处理开辟了新的途径,也有力地推动了智能信息处理的发展。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于分形维数和支持向量机的串联电弧故障诊断方法
基于二维材料的自旋-轨道矩研究进展
基于先验约束和互补搜索的粒子群优化算法及其在高维小样本数据处理上的应用
面向高维小样本数据的集成分类方法研究
基于多模态深层交互编码的小样本高光谱遥感影像分类方法研究
一种新的先验信息编码的约束学习算法的研究