The explosion of massive video data requires novel applications for computer vision communities. An important application is to combine deep learning based video analysis and natural language processing, which is a key technique for the next generation of intelligent video analysis, but remains unsolved. To address this issue, we explore the techniques of deep learning based video analysis, visual semantics and natural language processing. Specifically, in this project, we are focusing on three research tasks:1) proposing a two–stream 3D convNet fusion for feature extraction in videos with arbitrary size and length; 2) jointly learning of keywords and descriptions for video captions with deep Recurrent Neural Networks (RNNs); and 3) Bridge the gap between vision and language to propose efficient approaches for video question answering system. The three tasks are narrated progressively, and they provide theoretical support and experimental evaluation for combining video analysis and natural language processing. The project intends to output a series of key technologies for deploying collaborative applications of video analysis and natural language processing, such as video content analysis, semantic understanding, natural language processing, etc., as well as promoting the applicable range of video analysis in relevant disciplines.
随着数据爆炸时代的到来,海量视频数据的生成给计算机视觉的研究领域带来了新的应用需求。其中如何深度理解视频以及利用自然语言和视频进行交互仍亟待解决,其实现会为下一代大规模智能视频分析提供关键的技术支撑。本项目针对此重要课题展开研究,拟深入探索视觉内容分析、视觉语义以及自然语言理解等关键技术,具体对三个方面的内容展开研究:(1)提出一个轻量的深度网络对海量的视频语义特征进行快速有效的提取;(2)协同视频理解与自然语言处理实现视频的文本描述;和(3)协同视觉理解与自然语言处理实现视频智能问答系统。上述三个研究点依次递进,为视频理解和自然语言的协同提供理论支持和实用验证。本项目拟输出一系列协同视频分析和自然语言处理的关键技术,为视觉内容分析、语义理解以及自然语言处理等应用奠定理论基础,并促进视频分析在跨相关学科中的应用。
随着数据爆炸时代的到来,海量视频数据的生成给计算机视觉的研究领域带来了新的应用需求。其中如何深度理解视频以及利用自然语言和视频进行交互仍亟待解决,其实现会为下一代大规模智能视频分析提供关键的技术支撑。本项目针对此重要课题展开研究,拟深入探索视觉内容分析、视觉语义以及自然语言理解等关键技术,具体对三个方面的内容展开研究:(1)提出紧致视觉特征和复杂场景的语义理解,促进视觉理解;(2)协同视频理解与自然语言处理实现视频的文本描述;和(3)协同视觉理解与自然语言处理实现视频智能问答系统。上述三个研究点依次递进,为视频理解和自然语言的协同提供理论支持和实用验证。本项目产出了一系列协同视频分析和自然语言处理的关键技术,为视觉内容分析、语义理解以及自然语言处理等应用奠定理论基础,并促进视频分析在跨相关学科中的应用。依托本项目,已完成的研究成果为:发表高水平论文22篇(CCF A类会议论文和JCR B区以上期刊论文),培养研究生(博士和硕士)15名,申请专利2项。
{{i.achievement_title}}
数据更新时间:2023-05-31
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
基于SSVEP 直接脑控机器人方向和速度研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
协同视觉语义理解和社会媒体分析的关键技术研究
融合自然语言处理的深度视觉理解关键技术研究
视觉语义启发的视频事件理解技术研究
融合实体关系模型的视觉问答关键技术研究