Automatically generating natural language descriptions of video contents has important impact on advanced video retrieval and intelligent human computer interaction. Due to the complexity and diversity of the video contents and the corresponding description languages,the limitations of current research works include: 1) most research works only focus on the visual modality in videos and neglect other modalities such as the audio modality, which also contains valuable information; 2) the single output sentence of current systems is normally patterned and general; 3) only single sentence is generated for videos even for long videos, which loses the sequential nature of the narration; 4) there are currently no large-scale video description datasets. Therefore, we focus on solving the following problems to address the above issues in this project: 1) explore different multimodal features and fusion strategies to make full use of modality contents in videos. 2) capture the diversity of the generated sentences from three aspects – recognizing concrete entities to generate more detailed sentences, adding emotion and aural related adjective-noun pairs to make the sentence vivid, and grounding and generating sentences for independent video content to make the sentences more specific. 3) explore methods to generate consecutive multiple sentences to capture the temporal structure of the long-time structural videos and express the structure in hierarchical ways at various level of details. 4) expand the current dataset without human effort by semi-/un-supervised learning algorithms and automatically learn from the collected data to strengthen the description ability. Finally, 5) build a video captioning demonstration system to evaluate and visualize our techniques. We expect to achieve some break through research progress in multimodal fusion, diverse and hierarchical description generation models, and automatic data expansion, which will support advanced video retrieval, video understanding and human computer interaction.
为视频内容生成自然语言描述对于高级视频检索、智能人机交互有重要意义。由于视频和自然语言的复杂多样性,现有相关研究工作的局限性包括:1) 大部分研究仅关注视觉模态而忽略了其他模态; 2) 现有系统生成的单句描述通常宽泛而单调; 3) 一般系统只生成单句描述,因此丢失了长视频的时序特性; 4) 现有视频描述数据集规模小、语义覆盖面窄。因此,本项目拟针对上述不足进行突破性研究:1)探索多模态特征表示和融合方法; 2) 通过识别实体对象、增加情感及声音等修饰、以及对视频中独立内容进行定位等方法生成更加多样化的描述;3)生成连续、多层次的多句话来表现长视频的时序和语义层次结构; 4)通过弱监督或无监督方法自动扩展数据,并自动学习增强系统描述能力; 5)搭建验证和演示系统。本项目拟在多模态融合表示、多样性和多层次描述的计算模型、数据自动扩展等方面取得突破性进展,为视频检索、理解、人机交互提供技术支持。
本项目主要针对现有的视频内容描述研究中缺乏对视频多模态的融合、缺乏多样化细节的单句描述、缺乏多层次连续多句描述等局限,采用基于多模态融合以及深度神经网络等方法,在视频多模态信息融合方法,视频内容的多样化单句自然语言描述和层次连续的多句自然语言描述的计算模型等方面进行研究,并实现了一个多粒度视频描述展示系统。具体的研究内容包括:1) 多模态表示与融合; 2)多样化视觉语义描述生成;3)连续性多句视频描述生成; 4)基于自监督预训练的视频描述生成。 重要结果:1)在多模态表示与融合方面,提出基于视频类别进行动态的多模态特征选择与融合。2)在多样化视觉语义描述生成方面,提出了基于抽象场景图控制信号的多样化描述生成模型,实体感知的描述生成模型,以及问题控制的描述生成模型。3)在连续性多句视频描述生成方面,提出视频稠密段落描述生成模型。4)采用基于自监督预训练的方式,从含有噪声的大规模的视频-文本对中发掘对学习视觉和语言理解有用的知识,从而帮助生成质量更好的视频描述。项目研究中所提出的方法与模型不仅在国际顶级会议期刊发表,同时也在国内外权威评测竞赛中获得优异成绩。此外,我们在项目研究过程中,构建了两个大规模视频相关数据集,可以为视频理解领域的研究发展提供数据支持。总体来说,本项目按照计划顺利完成,取得了丰富的研究成果。视频内容描述是视频理解的终极目标之一,也是人工智能领域的重要问题。本项目的研究成果对视频内容的自然语言描述这个问题,以及视频理解的探索起到了重要的推动作用。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于内容的可伸缩多描述视频编码方法研究
基于深度学习的图像文本描述自动生成方法研究
基于自然语言理解和深度学习的类库规约的自动生成研究
视频事件驱动的深度序列学习与多模态时空注意融合