在机器学习领域,数据不均衡性广泛存在于真实应用中,主要体现为误分类代价不等和样本分布不平衡,不符合标准机器学习的假设。现有数据不均衡学习技术假设数据的不均衡性是精确刻画的,但多种因素会导致数据不均衡性难以精确刻画。本项目重点在以下四个方面关注数据不均衡的非精确性:(1)领域给定的基于类别的代价信息通常是不精确的;(2)领域给定的基于样本的代价信息通常是不精确的;(3)多标记的歧义性导致代价信息是不精确的;(4)多标记的歧义性导致样本分布不平衡性是不精确的。项目组将针对以上四种形式的数据不均衡的非精确性分别提出一种基于类别的非精确代价敏感学习方法、一种基于样本的非精确代价敏感学习方法、一种代价敏感的多标记学习方法、以及一种多标记数据的样本分布不平衡学习方法。本项目可望在国际期刊、国际会议和国内一级学报上发表高质量论文5-8篇,申请国家发明专利1 项,培养研究生2名。
本项目针对适于非精确信息的数据不平衡学习技术进行研究,研究计划要点包括基于类别的代价信息不精确情况下的学习,基于类别的样本分布不平衡信息不精确情况下的学习,多标记的歧义性导致的样本分布不平衡信息不精确情况下的学习。项目进展顺利,目前取得的研究成果包括7篇论文,其中被EI索引4篇,ISTP索引1篇,其中1篇发表在中国计算机学会认定的B类会议IEEE ICDM’13上,2篇发表在中国计算机学会认定的C类会议IEEE IJCNN’14\PAKDD’13上,1篇被收录在第一本介绍类别不平衡学习技术的著作《Imbalanced Learning: Foundations, Algorithms, and Applications》中。具体成果包括:(1)提出一种基于极大极小多目标优化的代价区间敏感学习方法;(2)提出一种基于纠错输出码的多类类别不平衡方法imECOC,两种基于集成的多类类别不平衡方法EasyEnsemble.M和ChunkCombine;(3)对类别不平衡问题中的极端不平衡问题进行了研究,比较了基于Boosting的常用类别不平衡学习方法在极端类别不平衡问题上的性能,得出了有意义的结论;(4)详细综述了两类的类别不平衡学习中的集成技术;(5)针对短文本这种新形式的数据不均衡性进行研究,提出了一种对短文本进行扩展的方法Crest;(6)提出了一种适用于多标记数据的样本分布不平衡学习方法COCOA。在项目期间,参加国际著名学术会议2次,口头报告1次,参加国内学术会议3次,口头报告2次,特邀报告1次。培养研究生4名,其中毕业1名,在读3名。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
温和条件下柱前标记-高效液相色谱-质谱法测定枸杞多糖中单糖组成
低轨卫星通信信道分配策略
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
适于移动设备的机器学习技术研究
面向信息非均衡遥感影像变化检测的深度学习模型及其优化方法
适于图像分类与标注的安全机器学习技术研究
适于在线媒体内容分类与标注的机器学习技术的研究