基于端到端统一建模的图像内容问答算法研究

基本信息
批准号:61702143
项目类别:青年科学基金项目
资助金额:28.00
负责人:余宙
学科分类:
依托单位:杭州电子科技大学
批准年份:2017
结题年份:2020
起止时间:2018-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:高飞,谭敏,李攀鹏,孙可嘉,郑光剑,项晨钞,黄迪,施圣洁
关键词:
哈希索引图像内容问答图像理解深度学习跨媒体统一表达
结项摘要

Image question answering (IQA) is a challenge research direction in cross-media area. It requires fine-grained understanding the content of both images and questions in natural language, then output the correct answer in natural language. Due to the complexity of images and openness of questions, the IQA problem was not well resolved. In recent years, the understanding for image and natural language is significantly improved by the deep neural networks. Therefore, in this project, we propose an end-to-end neural networks model to jointly solve the following three key problems in IQA: 1) effective cross-media feature fusion, 2) fine-grained image-question feature co-attention learning, 3) highly scalable answer predicting model. This study would lead towards more accurate IQA algorithms and practical IQA systems, and further explore the new way of human-computer interactions in the AI-2.0 era.

图像内容自动问答是跨媒体研究领域中一个具极具挑战性的一个研究方向。它需要对自然语言表述的问题和图片中的内容同时进行正确的理解后,返回自然语言描述的答案。由于图像内容的复杂性以及问题表述的开放性,该问题一直没有被很好地解决。近年来,使用深度神经网络在图像和自然语言理解方面都取得了长足的发展。因此,本项目拟基于深度神经网络模型,研究基于端到端统一建模的图像内容问答算法,将IQA中的三个关键问题联合求解:1)跨媒体特征有效融合,2)细粒度的图像-问题特征的“协同关注点”学习,3)高可扩展的答案预测模型。本项目的研究可以有效提升图像问答算法的准确性,有助于构建实用的图像内容问答系统,探索AI2.0时代新的人机交互方式。

项目摘要

图像问答是人工智能、计算机视觉领域的研究热点,也是国家新一代人工智能规划中跨媒体智能方向下的重要任务。在深度学习的框架下,构建可以端到端统一建模的图像问答方法,以实现精准的答案预测是一个挑战性问题。. 针对端到端建模的图像问答算法中几个关键问题展开深入研究:1)在多模态特征融合方面,提出以低秩分解为核心的多模态分解双线性池化方法MFB,并在此基础上扩展得到广义的高阶分解池化方法MFH。相比现有最好的融合方法,MFB和MFH模型显著提升了融合特征的表达能力,获得了更好的问答精度;2)在协同注意力建模方面,项目组分别提出MFB/MFH+CoAtt、MCAN和MMnas三个框架,由粗粒度建模改进为细粒度建模,从浅层模型发展到深层模型,从人工架构设计演变至自动架构设计,逐步提升图像问答方法的精度。应用所提出的算法,项目组参加了图像问答领域全球权威竞赛VQA Challenge 2017/2018/2019三次竞赛,获得了一次冠军,两次亚军。该成绩是目前国内团队取得的最好成绩。. 项目组在项目执行过程中,对多模态特征融合、注意力机制等相关基础理论、算法、技术等获得了丰富的经验。目前已在国际权威期刊和会议上发表论文15篇,其中CCF A类会议6篇,IEEE/ACM Trans系列7篇。公开了相关专利5项,其中授权1项。公开了数据集1项,开源了图像问答通用框架1项,并已与部分企业合作开展了产学研合作。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020
2

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
3

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
4

一种改进的多目标正余弦优化算法

一种改进的多目标正余弦优化算法

DOI:
发表时间:2019
5

面向工件表面缺陷的无监督域适应方法

面向工件表面缺陷的无监督域适应方法

DOI:
发表时间:2021

余宙的其他基金

相似国自然基金

1

基于深度神经网络的端到端自动问答系统研究

批准号:61672162
批准年份:2016
负责人:邱锡鹏
学科分类:F0211
资助金额:63.00
项目类别:面上项目
2

基于端到端的多语言语音内容与语言种类联合识别技术的研究

批准号:61901466
批准年份:2019
负责人:徐及
学科分类:F0117
资助金额:25.00
项目类别:青年科学基金项目
3

基于深度端到端模型的大场景遥感图像人造目标快速检测方法研究

批准号:41701508
批准年份:2017
负责人:刁文辉
学科分类:D0113
资助金额:25.00
项目类别:青年科学基金项目
4

基于多任务一体化的端到端场景图像文本识别方法研究

批准号:61703316
批准年份:2017
负责人:朱安娜
学科分类:F0304
资助金额:24.00
项目类别:青年科学基金项目