As an important branch of bioinformatics, microarray data analysis has become one of the important frontier fields of life science. The microarray data of cancer usually have high dimensionality, small sample size and imbalanced class distribution. These characteristics have rought great challenges to the classification problem of cancer microarray data. The ensemble learning algorithm based on multiple base classifiers has significant advantages in improving the generalization ability and robustness of the classifier. This project, on the purpose of providing effective algorithms for feature selection and imblanced classification of cancer microarray data, on the basis of in-depth study on the advantages and disadvantages of the existing feature selection methods, combining with semi-supervised learning methods for high dimensional small sample data, will explore the integration point of feature selection and the imbalanced data processing mechanism in ensemble learning framework, and design effective ensemble learning classification algorithms for cancer microarray data. The research work of this project can not only provide new techniques and methods for cancer classification problem based on microarray data, and so provide new ideas and directions for the classification model of high dimensional small sample data. Therefore, this project has a very important scientific significance and application value.
作为生物信息学的一个重要分支,微阵列数据分析已经成为当今生命科学的重大前沿领域之一。癌症微阵列数据通常具有高维小样本和类分布不平衡双重特性,这些特性为微阵列数据的癌症分类问题带来了巨大挑战。利用多个基分类器集成的集成学习算法,在提高分类器泛化能力和稳健性方面具有显著优势。本项目将以癌症微阵列数据的特征选择和不平衡数据分类为研究目标,在深入研究现有特征选择方法优缺点的基础上,结合高维小样本数据的半监督学习技术,探索集成学习框架下特征选择方法和不平衡数据处理机制的结合点,设计适用于癌症微阵列数据的集成学习分类算法。本项目的研究工作不仅为癌症微阵列数据的分类问题提供新技术和新方法,也将为普遍的高维小样本分类问题提供新思路和新方向。因此,本项目具有十分重要的科学意义和应用价值。
目前,变量选择已成为分析高维数据的最受欢迎和最有效的必要工具之一。集成学习由于其在降低错误发现率和提高稳定性的出色表现,引起了变量选择领域学者的极大研究兴趣。因此,在现有的变量选择方法中,集成变量选择(VSE)表现出了巨大的优势,可以提高传统变量选择方法的准确性和稳定性。. 首先,我们在变量选择集成过程中融入剪枝技术,提出了基于排序剪枝的选择性集成变量选择方法,进而获得精简而准确的选择性集成学习系统。选择ST2E(随机逐步集成)作为集成变量选择框架,将其扩展为处理高维数据的集成变量选择方法。根据每个成员对应的RICc值,进行集成顺序的重新排列。然后,只有排名靠前的一些成员进行集成,用于估计每个候选变量的重要性度量。在多个变量排序和变量选择指标下,对高维的模拟和实际数据集进行实验。结果表明,修剪后的ST2E在大多数情况下优于其他几种基准测试方法。通过分析VSE的准确性-多样性模式,发现修剪步骤排除了准确性较差的成员,使得选择性集成更加专注选择更加重要的真实变量。. 其次,我们尝试将稳定性变量选择推广到生存分析领域中Cox模型的变量选择问题。作为一种基于二次抽样的集成变量选择技术,稳定性选择能够结合Lasso算法,控制错误发现率,是线性回归模型中提高变量选择准确性的有效方法。通过采用Lasso作为基变量选择算法,结合稳定性选择推广应用于Cox模型中的变量选择问题。根据我们的经验,至关重要的是Lasso算法中的正则化区域Λ和参数min的正确设置,以确保稳定性选择方法可以很好地工作。实验结果表明,相比于其他的集成变量选择方法(PGA, BSS, RSMA 和 ST2E),在删失率较高的情况下,稳定性选择方法展现了更好地正确识别重要变量的选择能力。. 本项目的研究工作主要围绕着高维小样本数据的集成变量选择展开研究,这不仅为未来开展癌症基因数据的基因选择和不平衡分类问题奠定基础,也将为普遍的高维小样本分类问题提供新思路。因此,本项目的研究工作具有重要的科学意义和应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于集成学习的高维癌症基因微阵列数据分析方法研究
基于集成学习的商务智能中非均衡数据分类方法研究
基于集成学习的不平衡流数据分类问题研究
基于关联分类规则与集成学习的数据库营销研究