深度视觉零样本学习关键技术研究

基本信息
批准号:61771329
项目类别:面上项目
资助金额:67.00
负责人:冀中
学科分类:
依托单位:天津大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:杨爱萍,何宇清,于云龙,姜晓恒,曹家乐,郑伟雄,李慧慧,孙裕鑫,孙涛
关键词:
深度学习图像语义理解零样本学习视觉语义场景分类
结项摘要

Visual zero-shot learning (VZSL) is an image/video understanding and classification technique, which has three particular properties simultaneously: has the inferential capability to recognize instances of a new category that has never seen before, cross-modal, and cross-domain. It aims at predicting the labels of the testing classes by exploiting the training data of other classes together with common sense or priori knowledge. However, the current research mainly focus on the shallow learning model of “usage of deep features directly + conventional machine learning methods”, which is influenced greatly by the weak generalization capacity and domain shift problems, resulting poor VZSL performance. To solve this serious situation, this research project proposes a “Deep Visual Zero-Shot Learning” framework and a series of corresponding algorithms to improve the performance by employing the effective representation and learning mechanism of deep learning technique. Specifically, the research first puts emphasis on the end-to-end cross-modal embedding in VZSL by strengthening the use of local information; and then proposes a novel deep domain adaptation strategy in VZSL from direct and indirect ways to alleviate the domain shift problem; further, as an extended research, studies the deep open VZSL in the wild; finally, the advanced nature and the practical value of the framework and methods will be verified on the applications of image/video classification, multimedia annotation and retrieval, video summarization, and so on. The implementation of this research project will enrich and develop the basic theories of both zero-shot learning and deep learning, as well as promoting the development of related industries.

视觉零样本学习是一类测试数据类别与训练数据类别完全不同、既跨模态又跨领域的图像/视频理解和分类技术,目的是利用训练数据结合常识或先验来判断测试数据的类别。目前研究多为“直接利用深度特征+传统机器学习方法”的浅层学习模式,受跨模态映射的泛化能力弱和领域偏移的影响较大,导致算法性能严重受限。为了解决这一严重问题,本项目提出“深度视觉零样本学习”框架和方法,利用深度学习技术有效的表达和学习机制提升算法性能。具体地,针对视觉零样本学习技术,首先重点研究基于端对端的跨模态映射模型,通过加强局部信息的利用提升其泛化能力;接着提出深度领域适应学习策略,分别通过直接和间接两个层面缓解领域偏移问题;然后作为拓展研究,探索开放环境下的深度开集零样本学习技术;最后研究上述理论和方法在分类、标注、检索、摘要等领域中的具体应用。本项目的实施将丰富和完善零样本学习和深度学习等技术的基础理论和方法,推动相关产业的发展。

项目摘要

零样本学习是机器学习走向实际应用需要解决的共性问题之一,其核心思想是利用已有学习模型并辅以常识或先验知识进而进行演绎推断。本项目针对之前研究多集中于“直接利用深度特征+传统机器学习方法”的研究模式,受跨模态映射的泛化能力弱和领域偏移的影响较大的问题,研究了基于端对端的跨模态映射模型,从局部信息增强、领域适应学习以及广义零样本学习等几个方面提高了视觉数据零样本学习的性能,并延伸了其研究范畴和应用范围。.项目在11个方面取得了较好的进展,在基准测试数据集上达到了当时领先的性能水平。例如,提出了一系列基于局部增强思想的零样本跨模态深度映射方法。其中所提基于语义引导的特征表征方法证明了所提局部增强方法能得到更具有表达能力和判别能力的特征,在CUB上的识别率可达76.8%。该成果发表在NeurIPS 2018,谷歌学术引用已达80次,被NeurIPS 、CVPR、 ECCV等主流会议论文借鉴和引用,成为零样本方向的代表方法之一。提出一种多标签零样本学习框架,并依此提出一系列相关方法。提出一种属性信息引导的零样本跨模态哈希方法,在跨模态和单模态设置下都显著超越了当时的方法,谷歌学术引用53次。基于直推学习、半监督学习框架,提出一系列域适应学习方法,有效缓解了源域和目标域中的类别不同而导致数据分布存在差异,例如所提直推判别字典学习方法可利用已预测的未见类别样本重新优化模型,从而提高模型对未见类别样本的分类能力,在AwA数据集上准确率可达93.3%。进一步,基于编码学习、不平衡学习、对抗学习、度量学习等框架,提出了一系列广义零样本学习方法。例如提出的多模态隐编码模型证明了不同模态之间的特征可以通过公共隐空间进行有效地关联。此外,还依据所提跨模态思想,探索了少样本图像识别、跨模态图文检索、跨模态行人检索等方向,并提出了一系列方法。项目共发表论文24篇,授权发明专利5项,培养研究生10名。.本项目的实施将丰富和完善零样本学习和深度学习等技术的基础理论和方法,推动相关产业的发展。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
2

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
5

一种改进的多目标正余弦优化算法

一种改进的多目标正余弦优化算法

DOI:
发表时间:2019

冀中的其他基金

批准号:61472273
批准年份:2014
资助金额:81.00
项目类别:面上项目
批准号:61271325
批准年份:2012
资助金额:70.00
项目类别:面上项目

相似国自然基金

1

基于深度学习的零样本和小样本文本过滤技术研究

批准号:61872278
批准年份:2018
负责人:李晨亮
学科分类:F0211
资助金额:65.00
项目类别:面上项目
2

单光子成像与深度学习融合的仿生视觉芯片关键技术研究

批准号:61704167
批准年份:2017
负责人:于双铭
学科分类:F0402
资助金额:26.00
项目类别:青年科学基金项目
3

基于深度学习的智能电动汽车视觉认知与控制关键技术研究

批准号:51775082
批准年份:2017
负责人:连静
学科分类:E0507
资助金额:60.00
项目类别:面上项目
4

基于深度视觉学习的汽车辅助驾驶安全关键方法研究

批准号:61871021
批准年份:2018
负责人:赵光哲
学科分类:F0116
资助金额:63.00
项目类别:面上项目