融合自然语言处理的深度视觉理解关键技术研究

基本信息
批准号:61872064
项目类别:面上项目
资助金额:65.00
负责人:高联丽
学科分类:
依托单位:电子科技大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:邢冠宇,徐行,许辉,欧阳德强,赵磊,樊凯旋,陈岱渊,李涛,张轶岳
关键词:
视觉问答视频描述深度学习不确定性视觉内容理解
结项摘要

Visual understanding is one of the popular research fields in the past decade. With the explosive growth of multimedia data and the invention of deep learning technologies, it brings strong demands for new practical applications, as well as supporting techniques and theories. Among these applications and techniques, how to integrate natural language processing into visual understanding is a key research topic, which remains largely unsolved. Its implementation will provide the consumers with a natural way to understand and interact with the visual data, and will build the technical foundation for the next-generation multimedia analysis. In this project, we are focusing on three research tasks: 1) to propose a general deep neural framework to effectively and efficiently extract useful representations from large scale visual or text data; 2) to integrate natural language processing techniques to enhance large scale visual understanding and visual captioning; 3) to combine visual understanding, object detection and deep learning techniques to enhance Visual Question Answering.

视觉理解一直是计算机应用领域的研究热点之一。图像视频是视觉数据的主要载体,其爆炸式增长以及深度学习的不断发展,给该领域的研究带来了新颖的实际应用需求和技术理论支撑。其中如何融合自然语言处理技术用于深度视觉理解,以提供给用户更为自然的图像视频理解与交互方式,仍亟待研究。其实现会为下一代大规模智能多媒体分析提供关键的技术支撑。本项目针对此重要课题展开研究,拟深入探索多媒体内容理解、语义分析以及自然语言处理等关键技术,具体对三个方面的内容展开研究:(1)提出一个普适的深度网络对海量的图像视频和文本特征进行快速有效的提取;(2)将自然语言处理融合进视觉理解以改进视觉的文本描述;和(3)融合交互式视觉理解与自然语言处理以完善视觉问答系统。上述三个研究点关联紧密且相互增强,为融合自然语言处理的视频理解奠定了理论基础。

项目摘要

视觉理解一直是计算机应用领域的研究热点之一。图像视频是视觉数据的主要载体,其爆炸式增长以及深度学习的不断发展,给该领域的研究带来了新颖的实际应用需求和技术理论支撑。其中如何融合自然语言处理技术用于深度视觉理解,以提供给用户更为自然的图像视频理解与交互方式,仍亟待研究。其实现会为下一代大规模智能多媒体分析提供关键的技术支撑。本项目针对此重要课题展开研究,拟深入探索多媒体内容理解、语义分析以及自然语言处理等关键技术,具体对三个方面的内容展开研究:(1)提出一个普适的深度网络对海量的图像视频和文本特征进行快速有效的提取;(2)将自然语言处理融合进视觉理解以改进视觉的文本描述;和(3)融合交互式视觉理解与自然语言处理以完善视觉问答系统。上述三个研究点关联紧密且相互增强,为融合自然语言处理的视频理解奠定了理论基础。依托本项目,已完成的研究成果为:发表高水平论文30篇(CCF A类会议论文和JCR二区以上期刊论文),培养研究生(博士和硕士)17名,申请专利2项。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
2

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
3

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
4

一种改进的多目标正余弦优化算法

一种改进的多目标正余弦优化算法

DOI:
发表时间:2019
5

面向工件表面缺陷的无监督域适应方法

面向工件表面缺陷的无监督域适应方法

DOI:
发表时间:2021

高联丽的其他基金

批准号:61502080
批准年份:2015
资助金额:21.00
项目类别:青年科学基金项目

相似国自然基金

1

协同深度视频理解、描述和视觉问答的关键技术研究

批准号:61772116
批准年份:2017
负责人:宋井宽
学科分类:F0210
资助金额:66.00
项目类别:面上项目
2

融合先验建模和深度学习的自然场景视觉理解研究

批准号:61672273
批准年份:2016
负责人:路通
学科分类:F0209
资助金额:59.00
项目类别:面上项目
3

单光子成像与深度学习融合的仿生视觉芯片关键技术研究

批准号:61704167
批准年份:2017
负责人:于双铭
学科分类:F0402
资助金额:26.00
项目类别:青年科学基金项目
4

自然语言理解中事件真实性判别关键技术研究

批准号:61703293
批准年份:2017
负责人:邹博伟
学科分类:F03
资助金额:24.00
项目类别:青年科学基金项目