“新类别发现”学习及其应用

基本信息
批准号:61473087
项目类别:面上项目
资助金额:84.00
负责人:刘胥影
学科分类:
依托单位:东南大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:张宇,薛晖,丁啸,郭晓军,凌妙根,李倩倩,刘江涛,李宇琨,于菲
关键词:
新类别大量类别类别不平衡机器学习多任务学习
结项摘要

The project proposes "New Classes Discovery", a new kind of machine learning problem. The learning target is to discover new classes from the unlabeled data using the labeled data from known classes, and to optimize the classification ability regarding all classes. It stems from a real-world problem, discovery of unknown microbe species (binning problem of metageonomics), which requires classifying the mixed gene sequences of all species from a microflora, but most of the species are undiscovered yet. The project studies the problem of "New Classes Discovery" and its applications from 6 aspects: (1) proposing an algorithm which uses labeled data to discover new classes from the unlabeled data, and optimizes the classification ability; (2) proposing an algorithm combining data structure information and supervised information; (3) proposing an algorithm by exploiting the class correlations to deal with many classes efficiently and effectively; (4) proposing an algorithm which can discover new minority classes effectively, and an algorithm which can discover new minority classes effectively from many classes; (5) proposing a taxonomy-based algorithm for binning problem, and applying it to the real-world problems in an ongoing 973 project; (6) proposing a multi-task-based algorithm for dynamic analysis of microflora in the 973 project. It is expected to publish 8-10 high quality papers on international journals and conference, and national top level journals, applying for 2 patents and 1 software copyright, and training several graduate students.

"新类别发现"是本项目提出的一类新的机器学习问题,目标是利用已知类别的标记数据在未标记数据中发现新类别,并使所有类别上的分类能力最优。该问题来源于真实的微生物新物种发现(宏基因组数据封装)问题:对一个群落所有微生物的基因进行物种分类,其中绝大部分微生物尚未发现。项目围绕"新类别发现"及其应用从六个方面深入研究:(1)提出一种利用已知类数据发现新类,并使分类能力最优的算法(2)提出一种结合数据结构信息和监督信息的算法(3)提出一种利用类别相关性处理大量类别的快速高效的算法(4)提出一种有效发现新小类的算法(5)提出一种利用生物分类树学习的封装问题算法,并应用于973项目中的真实问题(6)提出一种基于多任务的算法,并应用于973项目中动态研究群落结构。本项目可望发表国际期刊会议国内一级学报高质量论文8-10篇,申请国家发明专利2项,软件著作权1项。

项目摘要

"新类别发现"是本项目提出的一类新的机器学习问题,目标是利用已知类别的标记数据在未标记数据中发现新类别,并使所有类别上的分类能力最优。项目围绕:(1)提出一种利用已知类数据发现新类,并使分类能力最优的算法(2)提出一种结合数据结构信息和监督信息的算法(3)提出一种利用类别相关性处理大量类别的快速高效的算法(4)提出一种有效发现新小类的算法(5)在真实数据上进行应用。.项目(1)针对“新类别发现”学习中未知类缺少监督信息的本质困难,首次提出通过对未标记数据进行预测在整个类别标记空间上的所属类别来扩展标记训练集的策略。该策略不仅可以解决未知类缺少监督信息的困难,且可同时解决类别不平衡问题。提出有效算法LCP,并应用在图片分类、文本分类等真实世界的类别不平衡的应用问题上,取得了显著优越的性能。(2)在通过对未标记数据预估所属类别以扩展标记训练集的过程中,由于缺少未知类的真实监督信息,故在预估的标记信息中存在歧义性。为了进一步面对标记歧义性带来的挑战,提出了基于特征消歧的偏标记学习方法PL-LEAF,利用特征空间信息帮助解决标记歧义性问题。(3)针对多新类别的“新类别发现“学习问题,本报告首次对该问题进行研究,将上述未知类缺少监督信息的本质困难的策略进行扩展,在包含多个未知类的整个标记空间上预估未标记数据的所属类别来扩展标记训练集,提出LSE算法。4)首先对少有关注的小类样本有限的类别不平衡问题进行研究,提出利用迁移学习思想从小类合成样本中迁移有效信息的算法。(5)针对类别不平衡的多标签发现学习问题,首先对少有关注的类别不平衡的多标记问题进行研究,提出了同时考虑标记相关性与类别不平衡性的集成学习方法。(6)提出一种新型的多任务学习方法(7)提出一种新型的聚类方法。本项目共发表高水平文章7篇,包括1篇SCI索引文章,1篇核心期刊文章,4篇CCF-A类国际会议文章,1篇CCF-B类国际会议文章。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
2

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
3

服务经济时代新动能将由技术和服务共同驱动

服务经济时代新动能将由技术和服务共同驱动

DOI:10.19474/j.cnki.10-1156/f.001172
发表时间:2017
4

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
5

一种改进的多目标正余弦优化算法

一种改进的多目标正余弦优化算法

DOI:
发表时间:2019

刘胥影的其他基金

批准号:61105046
批准年份:2011
资助金额:22.00
项目类别:青年科学基金项目

相似国自然基金

1

类别学习发展及其机制的眼动研究

批准号:31900769
批准年份:2019
负责人:邓玮
学科分类:C0908
资助金额:25.00
项目类别:青年科学基金项目
2

基于语义多边图的多物体图像类别发现及其在图像检索中的应用

批准号:61203256
批准年份:2012
负责人:王子磊
学科分类:F0604
资助金额:25.00
项目类别:青年科学基金项目
3

学习计算理论及其在知识发现中的应用

批准号:60073019
批准年份:2000
负责人:史忠植
学科分类:F02
资助金额:15.00
项目类别:面上项目
4

内隐类别学习的认知神经机制

批准号:31270024
批准年份:2012
负责人:付秋芳
学科分类:C0907
资助金额:80.00
项目类别:面上项目