协同深度视频理解、描述和视觉问答的关键技术研究

基本信息
批准号:61772116
项目类别:面上项目
资助金额:66.00
负责人:宋井宽
学科分类:
依托单位:电子科技大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:徐行,罗亮,欧阳德强,赵磊,何涛,曹良富,郭昱宇,李向鹏,陈岱渊
关键词:
视觉问答视频理解视频描述生成深度学习自然语言处理
结项摘要

The explosion of massive video data requires novel applications for computer vision communities. An important application is to combine deep learning based video analysis and natural language processing, which is a key technique for the next generation of intelligent video analysis, but remains unsolved. To address this issue, we explore the techniques of deep learning based video analysis, visual semantics and natural language processing. Specifically, in this project, we are focusing on three research tasks:1) proposing a two–stream 3D convNet fusion for feature extraction in videos with arbitrary size and length; 2) jointly learning of keywords and descriptions for video captions with deep Recurrent Neural Networks (RNNs); and 3) Bridge the gap between vision and language to propose efficient approaches for video question answering system. The three tasks are narrated progressively, and they provide theoretical support and experimental evaluation for combining video analysis and natural language processing. The project intends to output a series of key technologies for deploying collaborative applications of video analysis and natural language processing, such as video content analysis, semantic understanding, natural language processing, etc., as well as promoting the applicable range of video analysis in relevant disciplines.

随着数据爆炸时代的到来,海量视频数据的生成给计算机视觉的研究领域带来了新的应用需求。其中如何深度理解视频以及利用自然语言和视频进行交互仍亟待解决,其实现会为下一代大规模智能视频分析提供关键的技术支撑。本项目针对此重要课题展开研究,拟深入探索视觉内容分析、视觉语义以及自然语言理解等关键技术,具体对三个方面的内容展开研究:(1)提出一个轻量的深度网络对海量的视频语义特征进行快速有效的提取;(2)协同视频理解与自然语言处理实现视频的文本描述;和(3)协同视觉理解与自然语言处理实现视频智能问答系统。上述三个研究点依次递进,为视频理解和自然语言的协同提供理论支持和实用验证。本项目拟输出一系列协同视频分析和自然语言处理的关键技术,为视觉内容分析、语义理解以及自然语言处理等应用奠定理论基础,并促进视频分析在跨相关学科中的应用。

项目摘要

随着数据爆炸时代的到来,海量视频数据的生成给计算机视觉的研究领域带来了新的应用需求。其中如何深度理解视频以及利用自然语言和视频进行交互仍亟待解决,其实现会为下一代大规模智能视频分析提供关键的技术支撑。本项目针对此重要课题展开研究,拟深入探索视觉内容分析、视觉语义以及自然语言理解等关键技术,具体对三个方面的内容展开研究:(1)提出紧致视觉特征和复杂场景的语义理解,促进视觉理解;(2)协同视频理解与自然语言处理实现视频的文本描述;和(3)协同视觉理解与自然语言处理实现视频智能问答系统。上述三个研究点依次递进,为视频理解和自然语言的协同提供理论支持和实用验证。本项目产出了一系列协同视频分析和自然语言处理的关键技术,为视觉内容分析、语义理解以及自然语言处理等应用奠定理论基础,并促进视频分析在跨相关学科中的应用。依托本项目,已完成的研究成果为:发表高水平论文22篇(CCF A类会议论文和JCR B区以上期刊论文),培养研究生(博士和硕士)15名,申请专利2项。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
2

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

DOI:10.11999/JEIT210095
发表时间:2021
5

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022

宋井宽的其他基金

相似国自然基金

1

协同视觉语义理解和社会媒体分析的关键技术研究

批准号:61572108
批准年份:2015
负责人:杨阳
学科分类:F0210
资助金额:66.00
项目类别:面上项目
2

融合自然语言处理的深度视觉理解关键技术研究

批准号:61872064
批准年份:2018
负责人:高联丽
学科分类:F0210
资助金额:65.00
项目类别:面上项目
3

视觉语义启发的视频事件理解技术研究

批准号:61201319
批准年份:2012
负责人:邹晓春
学科分类:F0113
资助金额:26.00
项目类别:青年科学基金项目
4

融合实体关系模型的视觉问答关键技术研究

批准号:61906044
批准年份:2019
负责人:赵佳
学科分类:F0604
资助金额:24.00
项目类别:青年科学基金项目