With the wide use of intelligent terminals which can take photos and the rapid development of internet, the research and application of multi-modal image description in natural scenes become increasingly important. Currently, the multi-modal image description technology has been applied to image retrieval, image classification, network image analysis, etc. However, because of the heterogeneity of image modality and text modality in the multi-modal images, the semantic can’t be measured, so that the traditional method can’t be directly applied to multi-modal image description. This project systematically studies the key techniques in multi-modal image description in natural scenes and puts forwards the effective methods and algorithms. The main contents are as follows: (1) text detection method based on scene self-adaption and text recognition method based on multiple information fusion; (2) multi-modal image description method combining image visual features with text linguistic features; (3) multi-modal image description method based on multi-scale contextual image annotation; (4) multi-language image description based on deep transfer learning. The research results will promote the application of related technologies for multi-modal image understanding.
随着可拍照移动智能终端的广泛使用和互联网的快速发展,对自然场景中多模态图像内容文本描述的研究和应用显得日益重要。目前多模态图像内容文本描述技术广泛应用在图像检索、图像分类和网络图像分析等场景中。然而,由于多模态图像中的图像模态和文本模态的异构性导致语义的不可度量,使得传统方法不能直接适用于多模态图像内容的文本描述。本项目针对自然场景中多模态图像内容文本描述的关键技术问题进行研究,提出解决的方法和算法。主要研究内容包括:(1)基于场景自适应的文本检测方法和多信息融合的文本识别方法;(2)融合图像视觉特征和文本语言特征的多模态图像内容文本描述方法;(3)基于多尺度上下文图像标注的多模态图像内容文本描述方法;(4)基于深度迁移学习的多模态图像内容的跨语言文本描述方法。本项目研究成果将促进多模态图像内容理解相关技术的推广与应用。
图像文本描述生成任务是一个融合计算机视觉和自然语言处理的综合性任务。该任务是机器学习领域的重要挑战,要求模型像人类一样在理解图像含义的基础上,用自然流利的语句准确地描述图像的信息。随着神经网络的飞速发展,许多自然语言处理任务都进入了神经网络模型时代,并取得了巨大的突破;同时,MSCOCO,Flicker,Genome等大型图像数据集的开放,大大促进了研究者对基于神经网络模型的图像文本描述生成任务的探索。. 本项目的研究工作主要包括:.1. 提出了基于多模态神经网络的图像中文摘要生成方法。对于图像中文摘要任务采用端到端的编码器解码器架构。编码器包含单标签视觉特征提取网络和多标签关键词预测网络,解码器包含多模态摘要生成网络。根据多模态处理任务的特点,编码阶段同时提取视觉信息和关键词信息,解码阶段融合视觉信息和关键词信息对摘要生成过程建模,同时设计并实现了不同的多模态信息融合方法。.2. 提出了融合图像整体和局部信息的中文摘要方法。直接使用图像整体信息和关键词信息编码没有充分考虑图像的局部信息,不能够反映图像的全部特征。针对这个问题,我们引入注意力机制,对图像区域和摘要句子执行显示的对齐,充分使用图像局部信息,从冗杂的图像数据中提取若干关键信息,提高了模型的建模能力。同时探究图像整体局部信息融合的不同网络结构对中文摘要生成质量的影响。.3. 提出了基于细粒度检索的图像文本描述方法。首先,采用细粒度的图像检索方式,获得相似图像的描述。然后,采用阈值、注意力机制、加权、随机采样等多个方法来对检索结果进行筛选和去噪。 接着,采用记忆体(memory)结构来融合图像信息与检索到的文本信息。最后,通过引入外部知识帮助模型学习低频词并解决生成词在词典外的问题。. 通过本项目的开展,发表会议和期刊论文多篇,培养博士生3名,硕士生3名。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
内点最大化与冗余点控制的小型无人机遥感图像配准
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于多信息融合的自然场景图像中的文本检测和识别方法研究
基于自动多阈值分割技术的复杂自然场景图像文本信息检测与分割
基于多模态融合以及深度神经网络的视频内容自然语言描述自动生成的研究
基于Constellation模型的自然场景文本检索方法研究