基于半监督集成学习的不平衡数据研究

基本信息

批准号：61203292

项目类别：青年科学基金项目

资助金额：24.00

负责人：陈欢欢

学科分类：

依托单位：中国科学技术大学

批准年份：2012

结题年份：2015

起止时间：2013-01-01 - 2015-12-31

项目状态：已结题

项目参与者：王璞,王瑞,陆晓芬,王娟,陈立嵩,李明致

关键词：

集成学习模式识别计算智能

结项摘要

Many real-world machine learning applications are characterized as imbalanced classification problems, where there are many more instances of some classes than others. For this kind of classification problems, the typical classifiers are prone to ignore the small classes, which lead to inferior performance on small classes. As an important approach to tackle class imbalanced problems, the resampling methods have been paid a lot of attention. However, the existing resampling methods always assign the "assumed" labels to new sampled data and do not have the robust approach for different types of data in real-world applications. To address these problems, this proposed project will investigate the class imbalanced problem from a semi-supervised learning perspective, which generates unlabelled synthetic data from minority classes and uses both labelled and unlabelled data to build better classifiers by multiple assumption based sampling approaches. The proposed project proposes to employ collaborative semi-supervised ensemble methods to address the imbalanced problems, which leads to better understanding of ensemble model and extended application domains of ensemble model. In addition, the proposed research will incorporate the theoretical research results to the real-world Bioinformatics problems.

多类别数据不平衡问题（即数据中的一类样本在数量上远多于另一类或几类）广泛存在于各种实际应用中。传统的学习算法容易对大类过分重视，进而导致分类器在小类别数据上精度很低。采样方法作为一种重要的平衡数据集的手段受到了研究者广泛的重视。本课题主要针对现有采样方法机制单一、缺少容错机制等问题，提出了一种基于多假设的采样方法，通过只采样数据而不指定数据类别的方式从半监督学习的角度来解决多类别不平衡这个特殊的监督学习问题；提出了一种基于协作型半监督集成学习的不平衡数据处理方法，加深了对集成学习模型的理解、扩展了其应用范围；并且将理论研究成果直接应用于实际的生物信息学问题。

项目摘要

本项目在执行期间对基于半监督集成学习的不平衡数据问题进行了深入的研究。对取得的重要进展和学术成绩详述如下:.1) 提出基于统计学习理论的快速概率分类矢量机，其中基于拉普拉斯近似和期望传播算法求解模型参数的最大后验概率；使用梯度下降法与贝叶斯证据最大算法优化模型的超参数；基于Rademacher复杂性的理论分析方法得到了其泛化性能界以及解释了模型的稀疏性与模型泛化能力之间的关系。.2）研究并提出基于回声状态网路的动态系统模拟模型；基于泛函分析的模型之间距离的定义；基于在线参数优化的模型空间在线学习；快速有效的分类时间序列数据。.3) 针对故障诊断问题提出利用模型空间的学习的方法进行故障检测。提出了模型空间的构建、表示与理论；模型空间上的学习算法及其在故障检测中的应用；如何在模型空间上进行在线学习，以达到实时检测故障的目的；如何建立故障类型库，以存储已知的故障类型，方便以后的故障诊断；针对实际问题开发相应的应用系统。.4) 针对化工过程引入了一种新的在模型空间中学习的框架来处理故障检测和故障隔离，通过比较正常数据与故障数据对应模型之间的差异来监测故障并将及存储归类。.5）对于序列分类，我们提出了一种新颖的模型和测度联合学习方法（MMCL）。MMCL使得来自同一类的序列可以被距离较近的模型来表示，而不同类的序列用距离较远的模型来表示。.6）最大平衡Biclique问题(Maximum Balanced Biclique Problem)是一个著名的NP难组合优化问题，针对该问题提出了一种新的基于概率模型和结构变异的演化算法。.7）探索了在支撑向量机（SVM）方法中建模松驰变量的思想，进一步地观察光滑模型的意义和影响，讨论了把原始的SVM松驰项和建模的松驰项相结合是否可能会提高分类性能.8）为克服大数据知识工程带来的挑战，提出了一种三层的数据工程框架，称为BigKE。BigKE从自治异质数据源中学习碎片化知识，目的是提供个性化的知识服务。..相关的论文发表在IEEE T. on Networks and Learning System，KDD，IJCAI，Computers & Chemical Engineering，Neural Computation，IEEE Intelligent Systems，IEEE T. on Cybernetics上。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.13609/j.cnki.1000-0313.2022.04.019

发表时间：2022

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：10.1360/SSM-2020-0035

发表时间：2020

DOI：10.16031/j.cnki.issn.1003-8035.2019.05.04

发表时间：2019

陈欢欢的其他基金

批准号：91846111

批准年份：2018

资助金额：20.00

项目类别：重大研究计划

批准号：91546116

批准年份：2015

资助金额：43.00

项目类别：重大研究计划

批准号：31860620

批准年份：2018

资助金额：38.00

项目类别：地区科学基金项目

批准号：61673363

批准年份：2016

资助金额：16.00

项目类别：面上项目

相似国自然基金

数据流半监督分类中的半监督迁移学习研究

批准号：61866007

批准年份：2018

负责人：文益民

学科分类：F0603

资助金额：38.00

项目类别：地区科学基金项目

基于半监督学习和集成学习的文本分类方法研究

批准号：61073133

批准年份：2010

负责人：鲁明羽

学科分类：F0607

资助金额：32.00

项目类别：面上项目

基于集成学习的不平衡流数据分类问题研究

批准号：61906167

批准年份：2019

负责人：任思琪

学科分类：F0603

资助金额：24.00

项目类别：青年科学基金项目

基于半监督学习的聚类集成机理及高效算法研究

批准号：61170111

批准年份：2011

负责人：杨燕

学科分类：F0607

资助金额：55.00

项目类别：面上项目

基于半监督集成学习的不平衡数据研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

结直肠癌免疫治疗的多模态影像及分子影像评估

智能煤矿建设路线与工程实践

二维FM系统的同时故障检测与控制

现代优化理论与应用

“阶跃式”滑坡突变预测与核心因子提取的平衡集成树模型

陈欢欢的其他基金

面向管理与决策大数据的个性化知识服务及其应用

管理与决策大数据分析方法与个性化知识服务

滇西北典型高原湿地昆虫多样性及适应性机制研究

进化算法行为分析及应用

相似国自然基金