高维不平衡数据的集成学习算法研究

基本信息
批准号:11526161
项目类别:数学天元基金项目
资助金额:3.00
负责人:殷清燕
学科分类:
依托单位:西安建筑科技大学
批准年份:2015
结题年份:2016
起止时间:2016-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:李体政,李顺波,王玉英
关键词:
特征选择集成学习微阵列数据分析高维不平衡数据分类
结项摘要

Data sets in practical application are usually characterized by high dimensions and imbalanced class distribution, it brings great challenges for effective classification of high-dimensional imbalanced data sets. Ensemble learning using multiple classifiers to solve the same problem, has a significant advantage in improving the classifier generalization and robustness. This project will revolve high-dimensional imbalanced classification problems, and integrate imbalanced data preprocessing mechanism, advanced dimension reduction technology and ensemble learning to design effective classification algorithms. At last, we will apply newly designed algorithms to resolve gene expression data classification and protein structure prediction problems in bioinformatics. The study not only provides effective high-dimensiona imbalanced classification algorithms, but also lay the foundation for solving practical problems in application. Hence, it has very important scientific significance and application prospects.

实际应用中的数据集通常具有特征维数高和类分布不平衡双重特性,这些特性为高维不平衡数据的有效分类带来了极大挑战。集成学习利用多个基分类器的集成来解决同一分类问题,在提高分类器泛化能力和稳健性方面具有显著优势。本项目将以高维不平衡数据的有效分类为研究目标,深入分析现有集成学习算法在解决此类问题存在的不足,综合运用不平衡数据处理机制、先进的降维技术,探索其与基于特征子空间的集成学习算法的有机结合点,设计适用于高维不平衡数据的集成学习算法,并将这些算法应用于生物信息学中的基因表达数据分析和蛋白质结构预测等问题。该研究不仅为高维不平衡数据提供有效的分类算法,也将为解决相关的实际应用问题提供新技术和新方法,具有十分重要的科学意义和应用前景。

项目摘要

高维不平衡数据的分类问题是机器学习领域备受关注的研究课题,具有十分重要的科学研究意义和实际应用价值。高维不平衡类分布的双重特性,使得高维不平衡数据的有效分类具有极大难度,国内外的研究结果和技术还很少。本项目拟利用集成学习技术解决高维不平衡数据的分类问题,包括:(1)高维不平衡数据分类的预处理方法研究:通过对比不同预处理策略对于后续分类算法性能的影响,结果显示先特征选择再取样的分类效果更优,该结论可为后续相关研究工作提供实践指导;(2)基于集成特征选择的高维不平衡数据分类算法研究:针对适用于高维数据的集成特征选择算法,探索其与不平衡数据处理机制的有效结合方式,设计了新的适用于高维不平衡数据的集成学习分类算法。该项目获得的初步研究成果,将为我们后续展开的癌症基因表达数据的分类研究提供理论依据和实践基础。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
4

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
5

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018

殷清燕的其他基金

相似国自然基金

1

基于不平衡、不完备、高维小样本数据的集成学习故障诊断方法研究

批准号:51105291
批准年份:2011
负责人:汪庆华
学科分类:E0503
资助金额:23.00
项目类别:青年科学基金项目
2

基于半监督集成学习的不平衡数据研究

批准号:61203292
批准年份:2012
负责人:陈欢欢
学科分类:F0603
资助金额:24.00
项目类别:青年科学基金项目
3

基于集成学习的不平衡流数据分类问题研究

批准号:61906167
批准年份:2019
负责人:任思琪
学科分类:F0603
资助金额:24.00
项目类别:青年科学基金项目
4

面向不平衡数据的学习算法及应用研究

批准号:61070061
批准年份:2010
负责人:蒋盛益
学科分类:F0605
资助金额:32.00
项目类别:面上项目