Data sets in practical application are usually characterized by high dimensions and imbalanced class distribution, it brings great challenges for effective classification of high-dimensional imbalanced data sets. Ensemble learning using multiple classifiers to solve the same problem, has a significant advantage in improving the classifier generalization and robustness. This project will revolve high-dimensional imbalanced classification problems, and integrate imbalanced data preprocessing mechanism, advanced dimension reduction technology and ensemble learning to design effective classification algorithms. At last, we will apply newly designed algorithms to resolve gene expression data classification and protein structure prediction problems in bioinformatics. The study not only provides effective high-dimensiona imbalanced classification algorithms, but also lay the foundation for solving practical problems in application. Hence, it has very important scientific significance and application prospects.
实际应用中的数据集通常具有特征维数高和类分布不平衡双重特性,这些特性为高维不平衡数据的有效分类带来了极大挑战。集成学习利用多个基分类器的集成来解决同一分类问题,在提高分类器泛化能力和稳健性方面具有显著优势。本项目将以高维不平衡数据的有效分类为研究目标,深入分析现有集成学习算法在解决此类问题存在的不足,综合运用不平衡数据处理机制、先进的降维技术,探索其与基于特征子空间的集成学习算法的有机结合点,设计适用于高维不平衡数据的集成学习算法,并将这些算法应用于生物信息学中的基因表达数据分析和蛋白质结构预测等问题。该研究不仅为高维不平衡数据提供有效的分类算法,也将为解决相关的实际应用问题提供新技术和新方法,具有十分重要的科学意义和应用前景。
高维不平衡数据的分类问题是机器学习领域备受关注的研究课题,具有十分重要的科学研究意义和实际应用价值。高维不平衡类分布的双重特性,使得高维不平衡数据的有效分类具有极大难度,国内外的研究结果和技术还很少。本项目拟利用集成学习技术解决高维不平衡数据的分类问题,包括:(1)高维不平衡数据分类的预处理方法研究:通过对比不同预处理策略对于后续分类算法性能的影响,结果显示先特征选择再取样的分类效果更优,该结论可为后续相关研究工作提供实践指导;(2)基于集成特征选择的高维不平衡数据分类算法研究:针对适用于高维数据的集成特征选择算法,探索其与不平衡数据处理机制的有效结合方式,设计了新的适用于高维不平衡数据的集成学习分类算法。该项目获得的初步研究成果,将为我们后续展开的癌症基因表达数据的分类研究提供理论依据和实践基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于不平衡、不完备、高维小样本数据的集成学习故障诊断方法研究
基于半监督集成学习的不平衡数据研究
基于集成学习的不平衡流数据分类问题研究
面向不平衡数据的学习算法及应用研究