To obtain a classifier with high generalization capability is the main goal when solving pattern clasification problems. However, high-dimensional and small sample size data encountered in the real world will cause the Hughes phenomenon and result in large bias of parametric estimate in some traditional classification algorithms. Meanwhile, the overtraining phenomenon occurring in the traning process leads to biased or unstable classifiers. More importantly, the generalization capability of the obtained classifiers is very bad in general. Ensemble learning utilizes multiple base classifiers to handle a classification problem, which has significant advantages in improving generalization capibility and stability of a classifier. Therefore, ensemble classifiers have great potential in solving high-dimensional and small sample size problems. In this project, some effective manners for integrating a feature dimension reduction method and ensemble learning technique as well as automatic feature space partitioning method will be first investigated so that the discriminant information provided by the features in high-dimensional and small sample size data can be effectively utilized. Second, we will make use of good and bad diversity between base classifiers and the knowledge in the field of mathemetical statistics to construct a classifier combination criterion which can overcome the small sample characteric of the data. Based on the above study, we will develop new efficient ensemble classification strategies for solving hig-dimensional and small sample size problems. Furthermore, the effectiveness, computational complexity and robustness to noise of the proposed algorithms will be analyzed. Finally, the new algorithms will be applied to diagnose the faults of reciprocating compressor and to classify the objects in hyperspectral images. On one hand, this research will help to complete the theoretical foundation of ensemble learning to some extent. On the other hand, the obtained algorithms can be expected to provide a feasible way to deal with some real related problems which are encountered in the areas of natural science and national economy.
获取泛化能力强的分类器是解决模式分类问题的主要目标。但实际中的高维小样本数据会引起Hughes 现象,导致传统分类算法中的参数估计偏差过大,在训练过程中产生"过学习",使得得到的分类器有偏或不稳定,泛化能力差。集成学习用多个基分类器解决同一问题,在提高单个分类器的泛化能力和稳定性方面优势显著,具有解决高维小样本分类问题的潜力。本项目将采用降维技术与集成学习相结合和特征空间自动划分的方法,有效利用高维特征提供的判别信息,结合基分类器之间的好坏多样性及数理统计领域的知识,构造能有效克服数据小样本性的基分类器融合准则,设计面向高维小样本数据的集成分类算法,分析新算法的有效性、计算复杂性和对噪声的稳健性等,并应用其解决往复式压缩机故障诊断和高光谱图像分类等实际问题。该研究不仅可以完善集成学习的理论基础,也将为解决自然科学和国民经济各领域的同类问题提供有效方法。
本项目主要研究在高维小样本情况下,集成学习方法在解决模式分类问题中的相关理论、算法及应用。所取得的主要成果集中在下述几个方面:集成学习在不平衡数据分类中的应用,基于深度学习的特征提取与降维,回归和分类模型中的变量选择以及相关算法在遥感图像处理中的应用。..在不平衡数据分类的研究方面,提出了一种具有更强泛化能力的基于探索性欠采样和特征变换的选择性集成分类算法;基于随机下采样技术和随机树分类算法,提出了一种新的集成分类算法IRUSRT;对于敏感损失的boosting集成学习算法,我们通过试验分析了误分损失和数据的不平衡度对算法性能的影响程度,为算法在实际中的应用提供了一些建议。..在基于深度学习的特征提取和降维方面,我们探讨了利用受限波尔兹曼机RBM来辅助构建集成分类器的方法,研究了利用RBM来辅助构建集成分类器的方法,得出了一些有指导性的结论;提出了一种对变换具有不变性的分类RBM算法,达到了较高的分类精度;提出了一种新的稀疏RBM模型LogSumRBM,提高了RBM的数据表示能力;建立了基于率失真理论的深度信念网模型,极大地减少了编码中的信息率、提取了更抽象的特征,并学习到了更具判别能力的表示;提出了一种堆栈的无监督的极端学习机算法,能更高效地提取出更有意义的特征。..在回归和分类模型的变量选择方面,我们利用boosting算法的思想,基于遗传算法,提出了一种新的构建变量选择集成的方法,达到了更高的选择精度;在并行遗传算法PGA算法的基础上,提出了一种新的算法RandGA,能更好地检测出真正重要的自变量。..在遥感图像处理的研究方面,我们基于多光谱图像融合的自适应的强度、色度和饱和度方法(AHIS),提出了一种改进的IAIHS算法,可以更充分地利用每一个多光谱图像的空间信息,并保证融合后所得图像的光谱质量;将压缩感知理论用于高光谱图像的端元提取,增强了解混效果。..本项目的研究截至目前共发表相关期刊论文18篇,其中SCI检索13篇。
{{i.achievement_title}}
数据更新时间:2023-05-31
祁连山天涝池流域不同植被群落枯落物持水能力及时间动态变化
论大数据环境对情报学发展的影响
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
卫生系统韧性研究概况及其展望
面向高维数据集成降维的半监督聚类方法研究
基于不平衡、不完备、高维小样本数据的集成学习故障诊断方法研究
面向高维小样本数据的流形学习算法及应用研究
面向癌症检测的小样本高光谱图像分类理论研究