With the explosive growth of video contents and users, computer technology is urgently needed to achieve intelligent video content analysis for regulatory review or user search. Effective video feature representation is the basis of intelligent video analysis. However, most of the existing video feature representation researches are limited to the video classification, video object detection or tracking, while ignoring the spatial-temporal relationship of the objects. In this project, we will focus on the multi-modal semantic graph-driven video representation. The research plan has three important steps: (1) To deal with video data with complex semantics, we study effective methods to build multi-modal semantic graph based on video visual relationship detection. Then we study the effective methods for multi-modal semantic graph completion based on graph deep learning. (2) Based on the constructed multi-modal semantic graph, we study the methods of graph representation based on multi-modal graph deep learning, which aims to obtain the local feature representation, global feature representation, and the knowledge representation of the corresponding video sequence. (3) We will study video captioning based on the proposed video feature representation method, which is able to qualitative and quantitative evaluate the effectiveness of the proposed multi-modal semantic graph-driven video representation approach.
随着视频用户规模的扩大和使用时长的增加,无论是监管部门的审核还是用户的观看与检索都迫切需要计算机技术实现对视频内容进行智能分析,视频智能分析的基础是有效的视频特征表示。现有研究大都局限在以视频片段分类或视频物体检测跟踪为研究目标,而忽视了视频中物体之间的关系信息。本项目重点研究基于多模态语义图谱的视频特征表示方法,主要研究工作将从如下三个方面展开:(1)针对具有复杂语义的视频数据,研究基于视频视觉关系检测的结构化多模态语义图谱的构建方法,并研究利用图深度学习对从视频数据中构建的多模态语义图谱进行补全;(2)基于构建的多模态语义图谱,研究基于多模态图深度学习的视频多模态语义图谱的向量化表示,从图谱中获得视频的局部、全局以及知识特征表示;(3)研究基于多模态语义图谱的视频文本描述生成,可对基于多模态语义图谱获得的视频特征表示进行定量与定性评估。
随着视频用户规模的扩大和使用时长的增加,无论是监管部门的审核还是用户的观看与检索都迫切需要计算机技术实现对视频内容进行智能分析,视频智能分析的基础是有效的视频特征表示。现有研究大都局限在以视频片段分类或视频物体检测跟踪为研究目标,而忽视了视频中物体之间的关系信息。本项目重点研究基于多模态语义图谱的视频特征表示方法,主要研究工作从如下三个方面展开:(1)针对具有复杂语义的视频数据,研究基于视频视觉关系检测的结构化多模态语义图谱的构建方法,并研究利用图深度学习对从视频数据中构建的多模态语义图谱进行补全;(2)基于构建的多模态语义图谱,研究基于多模态图深度学习的视频多模态语义图谱的向量化表示,从图谱中获得视频的局部、全局以及知识特征表示;(3)研究基于多模态语义图谱的视频文本跨模态检索与生成,可对基于多模态语义图谱获得的视频特征表示进行定量与定性评估。本项目的研究成果可以服务于结构化跨模态视频检索、互联网视频广告精细投放等应用,为下一代智能视频分析与管理系统提供切实可行的解决方案,有着巨大的商业价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
现代优化理论与应用
基于直观图的三支概念获取及属性特征分析
基于直觉模糊二元语义交互式群决策的技术创新项目选择
城市生活垃圾热值的特征变量选择方法及预测建模
TVBN-ResNeXt:解决动作视频分类的端到端时空双流融合网络
基于多模态特征语义融合的网络不良视频识别
基于多模态融合的语义表示学习方法
基于多模态融合机制的视频语义表征方法研究
基于多重特征关联的视频GIS数据多模态检索方法