自然场景中多模态图像内容的文本描述方法研究

基本信息

批准号：61772505

项目类别：面上项目

资助金额：61.00

负责人：马龙龙

学科分类：

依托单位：中国科学院软件研究所

批准年份：2017

结题年份：2021

起止时间：2018-01-01 - 2021-12-31

项目状态：已结题

项目参与者：洪锦玲,于新,陈波,林鸿宇,安波,付成,刘泽宇,刘吉,李博涵

关键词：

多模态图像内容文本描述迁移学习递归神经网络场景自适应跨语言

结项摘要

With the wide use of intelligent terminals which can take photos and the rapid development of internet, the research and application of multi-modal image description in natural scenes become increasingly important. Currently, the multi-modal image description technology has been applied to image retrieval, image classification, network image analysis, etc. However, because of the heterogeneity of image modality and text modality in the multi-modal images, the semantic can’t be measured, so that the traditional method can’t be directly applied to multi-modal image description. This project systematically studies the key techniques in multi-modal image description in natural scenes and puts forwards the effective methods and algorithms. The main contents are as follows: (1) text detection method based on scene self-adaption and text recognition method based on multiple information fusion; (2) multi-modal image description method combining image visual features with text linguistic features; (3) multi-modal image description method based on multi-scale contextual image annotation; (4) multi-language image description based on deep transfer learning. The research results will promote the application of related technologies for multi-modal image understanding.

随着可拍照移动智能终端的广泛使用和互联网的快速发展，对自然场景中多模态图像内容文本描述的研究和应用显得日益重要。目前多模态图像内容文本描述技术广泛应用在图像检索、图像分类和网络图像分析等场景中。然而，由于多模态图像中的图像模态和文本模态的异构性导致语义的不可度量，使得传统方法不能直接适用于多模态图像内容的文本描述。本项目针对自然场景中多模态图像内容文本描述的关键技术问题进行研究，提出解决的方法和算法。主要研究内容包括：（1）基于场景自适应的文本检测方法和多信息融合的文本识别方法；（2）融合图像视觉特征和文本语言特征的多模态图像内容文本描述方法；（3）基于多尺度上下文图像标注的多模态图像内容文本描述方法；（4）基于深度迁移学习的多模态图像内容的跨语言文本描述方法。本项目研究成果将促进多模态图像内容理解相关技术的推广与应用。

项目摘要

图像文本描述生成任务是一个融合计算机视觉和自然语言处理的综合性任务。该任务是机器学习领域的重要挑战，要求模型像人类一样在理解图像含义的基础上，用自然流利的语句准确地描述图像的信息。随着神经网络的飞速发展，许多自然语言处理任务都进入了神经网络模型时代，并取得了巨大的突破；同时，MSCOCO，Flicker，Genome等大型图像数据集的开放，大大促进了研究者对基于神经网络模型的图像文本描述生成任务的探索。. 本项目的研究工作主要包括：.1. 提出了基于多模态神经网络的图像中文摘要生成方法。对于图像中文摘要任务采用端到端的编码器解码器架构。编码器包含单标签视觉特征提取网络和多标签关键词预测网络，解码器包含多模态摘要生成网络。根据多模态处理任务的特点，编码阶段同时提取视觉信息和关键词信息，解码阶段融合视觉信息和关键词信息对摘要生成过程建模，同时设计并实现了不同的多模态信息融合方法。.2. 提出了融合图像整体和局部信息的中文摘要方法。直接使用图像整体信息和关键词信息编码没有充分考虑图像的局部信息，不能够反映图像的全部特征。针对这个问题，我们引入注意力机制，对图像区域和摘要句子执行显示的对齐，充分使用图像局部信息，从冗杂的图像数据中提取若干关键信息，提高了模型的建模能力。同时探究图像整体局部信息融合的不同网络结构对中文摘要生成质量的影响。.3. 提出了基于细粒度检索的图像文本描述方法。首先，采用细粒度的图像检索方式，获得相似图像的描述。然后，采用阈值、注意力机制、加权、随机采样等多个方法来对检索结果进行筛选和去噪。接着，采用记忆体（memory）结构来融合图像信息与检索到的文本信息。最后，通过引入外部知识帮助模型学习低频词并解决生成词在词典外的问题。. 通过本项目的开展，发表会议和期刊论文多篇，培养博士生3名，硕士生3名。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2021

DOI：10.3778/j.issn.1002-8331.1911-0012

发表时间：2020

DOI：

发表时间：2020

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

DOI：10.3788/CJL201946.0801003

发表时间：2019

马龙龙的其他基金

批准号：70872108

批准年份：2008

资助金额：23.00

项目类别：面上项目

批准号：61202220

批准年份：2012

资助金额：23.00

项目类别：青年科学基金项目

相似国自然基金

基于多信息融合的自然场景图像中的文本检测和识别方法研究

批准号：61305004

批准年份：2013

负责人：王大寒

学科分类：F0605

资助金额：25.00

项目类别：青年科学基金项目

基于自动多阈值分割技术的复杂自然场景图像文本信息检测与分割

批准号：61702118

批准年份：2017

负责人：姜允志

学科分类：F06

资助金额：26.00

项目类别：青年科学基金项目

基于多模态融合以及深度神经网络的视频内容自然语言描述自动生成的研究

批准号：61772535

批准年份：2017

负责人：金琴

学科分类：F0209

资助金额：62.00

项目类别：面上项目

基于Constellation模型的自然场景文本检索方法研究

批准号：61073128

批准年份：2010

负责人：刘家锋

学科分类：F0211

资助金额：32.00

项目类别：面上项目

自然场景中多模态图像内容的文本描述方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于铁路客流分配的旅客列车开行方案调整方法

针对弱边缘信息的左心室图像分割算法

基于多色集合理论的医院异常工作流处理建模

基于改进LinkNet的寒旱区遥感图像河流识别方法

基于腔内级联变频的0.63μm波段多波长激光器

马龙龙的其他基金

大型赛事服务平台的即时构造方法研究

基于部件的联机手写藏文音节识别方法研究

相似国自然基金