基于深度学习的跨模态检索方法研究

基本信息
批准号:61902347
项目类别:青年科学基金项目
资助金额:26.00
负责人:董建锋
学科分类:
依托单位:浙江工商大学
批准年份:2019
结题年份:2022
起止时间:2020-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:
关键词:
深度学习公共空间学习注意力机制跨媒体信息检索相关度融合
结项摘要

Cross-modal retrieval is an information retrieval method that supports mutual retrieval between multimedia data of different modalities. Due to the increasing multimedia data on the Internet in recent years, cross-modal retrieval has received extensive attention. This proposal plans to deeply explore the relationship between multimedia data of different modalities through deep learning, and design a flexible and effective cross-modal retrieval model and general framework. Firstly, aiming for cross-modal retrieval applications, we study the representation of various multimedia data from the perspective of human attention mechanism to obtain more robust features. Secondly, we study to learn multiple differentiated common spaces for cross-model relevance computation, and measure the cross-modal relevance from multiple perspectives. Thirdly, we study the adaptive fusion strategy of the cross-modal retrieval model, and design a learning-based fusion to aggregate the cross-modal correlations from different models according to their characteristics. Finally, a cross-modal retrieval demo system is designed and developed based on the research results of the research. The resultant techniques of this research will provide theoretical and technical support for cross-modal retrieval and beneficial to the development of multimedia search services in a more convenient, accurate and intelligent direction.

跨模态检索是一种支持不同模态多媒体数据之间相互检索的信息检索方式。近年来互联网上的多媒体数据日益增长,跨模态检索受到广泛的关注。本项目拟通过深度学习技术深入挖掘不同模态数据之间的关系,设计灵活有效的跨模态检索模型和通用框架。首先,针对跨模态检索应用,我们拟从人注意力机制的角度出发研究多媒体数据的特征表达方法,以得到更鲁棒的特征。其次,我们研究为不同模态的数据学习多个具有差异化的公共空间,探索从多个角度来衡量跨模态数据之间的相关度。进一步,我们研究跨模态检索模型的自适应融合策略,根据不同模型的特性设计一种基于学习的融合策略对不同模型的跨模态相关度进行融合。最后,基于项目的研究成果设计开发跨模态检索原型系统。本项目的研究成果将为跨模态检索提供理论与技术支撑,有助于多媒体搜索服务朝着更方便、更准确、更智能化的方向发展。

项目摘要

近年来互联网上的多媒体数据日益增长,跨模态检索受到广泛的关注。本项目围绕文本视频等数据的表示学习、跨模态相似度计算、细粒度跨模态检索三方面展开研究,提出多个跨模态检索新方法,并开发了一个跨模态检索原型系统。相关研究成果发表高水平学术论文13篇,其中6篇为第一作者,8篇为CCF A类论文。研究成果受国内外同行认可,其中一篇论文发表在在计算机视觉和人工智能领域国际公认的顶级期刊IEEE TPAMI 2022,该论文目前已经被引用90余次。申请跨模态检索相关专利 4项。此外,项目组整理了一个文本视频跨模态检索的论文集,包括2018-2022年主要的跨模态检索方法、相关开源代码,常用数据集等,方便跨模态检索的初学者学习;项目组所开发的7份跨模态检索代码已在Github开源。相关研究成果在海康威视和阿里巴巴应用,产生了良好的社会效益。本项目的研究成果将为跨模态检索提供理论与技术支撑,有助于多媒体搜索服务朝着更方便、更准确、更智能化的方向发展。在项目的资质下,项目负责人在项目执行期入选了中国图像学会青年托举计划。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

农超对接模式中利益分配问题研究

农超对接模式中利益分配问题研究

DOI:10.16517/j.cnki.cn12-1034/f.2015.03.030
发表时间:2015
3

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
4

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
5

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020

董建锋的其他基金

相似国自然基金

1

基于跨模态深度学习的大规模异质人脸图像检索算法研究

批准号:61906207
批准年份:2019
负责人:陈凯
学科分类:F0604
资助金额:22.00
项目类别:青年科学基金项目
2

基于结构约束的跨模态检索方法研究

批准号:61762021
批准年份:2017
负责人:欧卫华
学科分类:F0605
资助金额:39.00
项目类别:地区科学基金项目
3

基于深度学习的跨模态三维几何处理方法研究

批准号:61872162
批准年份:2018
负责人:伍铁如
学科分类:F0209
资助金额:64.00
项目类别:面上项目
4

基于深度学习的非刚性三维模型多模态检索研究

批准号:61762003
批准年份:2017
负责人:白静
学科分类:F0209
资助金额:39.00
项目类别:地区科学基金项目