自然场景中多模态图像内容的文本描述方法研究

基本信息
批准号:61772505
项目类别:面上项目
资助金额:61.00
负责人:马龙龙
学科分类:
依托单位:中国科学院软件研究所
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:洪锦玲,于新,陈波,林鸿宇,安波,付成,刘泽宇,刘吉,李博涵
关键词:
多模态图像内容文本描述迁移学习递归神经网络场景自适应跨语言
结项摘要

With the wide use of intelligent terminals which can take photos and the rapid development of internet, the research and application of multi-modal image description in natural scenes become increasingly important. Currently, the multi-modal image description technology has been applied to image retrieval, image classification, network image analysis, etc. However, because of the heterogeneity of image modality and text modality in the multi-modal images, the semantic can’t be measured, so that the traditional method can’t be directly applied to multi-modal image description. This project systematically studies the key techniques in multi-modal image description in natural scenes and puts forwards the effective methods and algorithms. The main contents are as follows: (1) text detection method based on scene self-adaption and text recognition method based on multiple information fusion; (2) multi-modal image description method combining image visual features with text linguistic features; (3) multi-modal image description method based on multi-scale contextual image annotation; (4) multi-language image description based on deep transfer learning. The research results will promote the application of related technologies for multi-modal image understanding.

随着可拍照移动智能终端的广泛使用和互联网的快速发展,对自然场景中多模态图像内容文本描述的研究和应用显得日益重要。目前多模态图像内容文本描述技术广泛应用在图像检索、图像分类和网络图像分析等场景中。然而,由于多模态图像中的图像模态和文本模态的异构性导致语义的不可度量,使得传统方法不能直接适用于多模态图像内容的文本描述。本项目针对自然场景中多模态图像内容文本描述的关键技术问题进行研究,提出解决的方法和算法。主要研究内容包括:(1)基于场景自适应的文本检测方法和多信息融合的文本识别方法;(2)融合图像视觉特征和文本语言特征的多模态图像内容文本描述方法;(3)基于多尺度上下文图像标注的多模态图像内容文本描述方法;(4)基于深度迁移学习的多模态图像内容的跨语言文本描述方法。本项目研究成果将促进多模态图像内容理解相关技术的推广与应用。

项目摘要

图像文本描述生成任务是一个融合计算机视觉和自然语言处理的综合性任务。该任务是机器学习领域的重要挑战,要求模型像人类一样在理解图像含义的基础上,用自然流利的语句准确地描述图像的信息。随着神经网络的飞速发展,许多自然语言处理任务都进入了神经网络模型时代,并取得了巨大的突破;同时,MSCOCO,Flicker,Genome等大型图像数据集的开放,大大促进了研究者对基于神经网络模型的图像文本描述生成任务的探索。. 本项目的研究工作主要包括:.1. 提出了基于多模态神经网络的图像中文摘要生成方法。对于图像中文摘要任务采用端到端的编码器解码器架构。编码器包含单标签视觉特征提取网络和多标签关键词预测网络,解码器包含多模态摘要生成网络。根据多模态处理任务的特点,编码阶段同时提取视觉信息和关键词信息,解码阶段融合视觉信息和关键词信息对摘要生成过程建模,同时设计并实现了不同的多模态信息融合方法。.2. 提出了融合图像整体和局部信息的中文摘要方法。直接使用图像整体信息和关键词信息编码没有充分考虑图像的局部信息,不能够反映图像的全部特征。针对这个问题,我们引入注意力机制,对图像区域和摘要句子执行显示的对齐,充分使用图像局部信息,从冗杂的图像数据中提取若干关键信息,提高了模型的建模能力。同时探究图像整体局部信息融合的不同网络结构对中文摘要生成质量的影响。.3. 提出了基于细粒度检索的图像文本描述方法。首先,采用细粒度的图像检索方式,获得相似图像的描述。然后,采用阈值、注意力机制、加权、随机采样等多个方法来对检索结果进行筛选和去噪。 接着,采用记忆体(memory)结构来融合图像信息与检索到的文本信息。最后,通过引入外部知识帮助模型学习低频词并解决生成词在词典外的问题。. 通过本项目的开展,发表会议和期刊论文多篇,培养博士生3名,硕士生3名。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
2

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015
3

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020
4

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

马龙龙的其他基金

批准号:70872108
批准年份:2008
资助金额:23.00
项目类别:面上项目
批准号:61202220
批准年份:2012
资助金额:23.00
项目类别:青年科学基金项目

相似国自然基金

1

基于多信息融合的自然场景图像中的文本检测和识别方法研究

批准号:61305004
批准年份:2013
负责人:王大寒
学科分类:F0605
资助金额:25.00
项目类别:青年科学基金项目
2

基于自动多阈值分割技术的复杂自然场景图像文本信息检测与分割

批准号:61702118
批准年份:2017
负责人:姜允志
学科分类:F06
资助金额:26.00
项目类别:青年科学基金项目
3

基于多模态融合以及深度神经网络的视频内容自然语言描述自动生成的研究

批准号:61772535
批准年份:2017
负责人:金琴
学科分类:F0209
资助金额:62.00
项目类别:面上项目
4

基于Constellation模型的自然场景文本检索方法研究

批准号:61073128
批准年份:2010
负责人:刘家锋
学科分类:F0211
资助金额:32.00
项目类别:面上项目