面向不平衡分类任务的主动学习方法研究

基本信息
批准号:61305058
项目类别:青年科学基金项目
资助金额:23.00
负责人:于化龙
学科分类:
依托单位:江苏科技大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:高尚,左欣,秦斌,洪淑芳,袁玉龙,李文龙
关键词:
不平衡分类样本选择多类分类主动学习平衡控制
结项摘要

Active learning is one of major research fields in machine learning and data mining. It can reduce the sample complex by actively selecting the samples to learn,further reduce label costs by human.However, traditional active learning algorithms often fail to produce excellent enough classification performance for skewed classification tasks, due to its learning process will be destroyed by imbalanced unlabeled sample distribution. This project will first analyze the features of pool-based and stream-based imbalanced classification tasks, respectively. Then the project will research the strategies to alleviate the effect of class imbalance from three aspects, which correspond to three key procedures in active learning: query sample selection, balance control and stopping decision. Based on the work above, an effective active learning algorithm, which is specifically designed for imbalanced classification tasks with unbabeled samples, can be proposed. Furthermore, this project will also investigate the structure features of multiclass imbalanced classification tasks and present effective active learning algorithms. The research findings can be widely applied in many real fields, including financial fraud detection, network intrusion detection, spam filtering, video monitoring, Bioinformatics etc., thus this research is important for both theory and application.

主动学习是机器学习及数据挖掘领域研究的重要方向之一,该技术通过主动选择学习样例的方式,可降低学习算法的样本复杂度,从而减少手工标注的代价。然而,当将传统的主动学习算法应用于不平衡分类任务时,其学习过程可能会受到无标记样本不平衡分布的影响,使算法难以获得令人满意的学习效果。本项目分别根据数据池和数据流等两类不平衡分类任务各自的特点,从"查询样本"的选择﹑学习过程的"平衡控制"及学习停止条件的判定等三个影响主动学习性能的关键步骤入手,研究可缓解不平衡样本分布影响的有效策略,进而提出适用于不平衡分类任务的主动学习算法。此外,还将根据多类不平衡分类任务自身的结构特点,扩展已有的研究成果,提出具有针对性的面向多类不平衡分类任务的主动学习算法。项目的研究成果有望在金融欺诈检测﹑网络入侵检测﹑垃圾邮件过滤、文本分类﹑视频监控及生物信息学等多个领域得到实际应用,因此具有较重要的理论与应用价值。

项目摘要

类别不平衡学习与主动学习均是机器学习与数据挖掘领域的重要研究方向,在现实世界中也均具有广泛的应用价值。然而,前人工作却很少考虑将上述两类技术结合使用,仅有的少部分工作也仅是利用主动学习技术来缓解类别不平衡问题,却并未考虑样本不平衡分布会对主动学习的性能产生何种影响。因此,本项目主要针对上述问题展开深入研究,并取得了一系列的研究成果。具体研究成果如下:1) 探究了高维不平衡数据的结构特点,充分利用此类数据的特点,构造了一种高效的集成分类算法,其可在不损失单体分类器性能的前提下,大幅提升集成中个体分类器间的差异度,明显提高了此类数据的分类性能;2) 利用优化的思想,对类别不平衡学习中的决策输出补偿技术进行了改进,使其不再依赖于经验值,而是能自适应地对分类面位置进行调整,取得了很好的理论与实验效果;3) 为适应主动学习过程对速度与质量的双重要求,设计了一种基于极限学习机的主动学习算法,该算法充分利用了极限学习机的结构特点,通过非线性变换的方法将网络的实际输出转化为样本的近似后验概率形式,进而利用其作为“查询样本”选取的不确定性度量标准,大量实验结果表明:该算法具有与前人最好算法大致相当的分类性能,但运行时间却只有前人算法的几十分到几千分之一;4) 充分调查了样本不平衡分布对主动学习的影响机理,并以研究内容3为基础,借鉴代价敏感学习的思想,提出了一种高效的“平衡控制”策略,进而将其与在线学习相结合(已通过理论推导证明),开发了一种有效且高效的适用于样本分布不平衡场景的主动学习算法,取得了非常好的实验效果;5) 引入滑动时间窗,提出了一种适用于单样例标注场景的基于选择精度的主动学习停止准则,扩大了此类准则的适用范围。本项目的研究成果有助于为后续的实践研究提供理论基础。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于铁路客流分配的旅客列车开行方案调整方法

基于铁路客流分配的旅客列车开行方案调整方法

DOI:
发表时间:2021
2

多能耦合三相不平衡主动配电网与输电网交互随机模糊潮流方法

多能耦合三相不平衡主动配电网与输电网交互随机模糊潮流方法

DOI:10.13334/j.0258-8013.pcsee.190276
发表时间:2020
3

基于被动变阻尼装置高层结构风振控制效果对比分析

基于被动变阻尼装置高层结构风振控制效果对比分析

DOI:10.13197/j.eeev.2019.05.95.fuwq.009
发表时间:2019
4

基于多色集合理论的医院异常工作流处理建模

基于多色集合理论的医院异常工作流处理建模

DOI:
发表时间:2020
5

基于腔内级联变频的0.63μm波段多波长激光器

基于腔内级联变频的0.63μm波段多波长激光器

DOI:10.3788/CJL201946.0801003
发表时间:2019

于化龙的其他基金

相似国自然基金

1

面向不平衡数据分类的演化硬件集成学习方法研究

批准号:61203308
批准年份:2012
负责人:王进
学科分类:F0601
资助金额:24.00
项目类别:青年科学基金项目
2

面向多类图像分类的众包主动学习方法研究

批准号:61402311
批准年份:2014
负责人:吴健
学科分类:F0210
资助金额:26.00
项目类别:青年科学基金项目
3

面向异分布数据的主动学习方法

批准号:61502117
批准年份:2015
负责人:吴伟宁
学科分类:F0605
资助金额:21.00
项目类别:青年科学基金项目
4

面向复杂数据的多任务学习方法与应用

批准号:61673364
批准年份:2016
负责人:徐林莉
学科分类:F0603
资助金额:62.00
项目类别:面上项目