基于多模态语义图谱的视频特征表示研究

基本信息
批准号:61902104
项目类别:青年科学基金项目
资助金额:27.00
负责人:年福东
学科分类:
依托单位:合肥学院
批准年份:2019
结题年份:2022
起止时间:2020-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:
关键词:
内容分析多媒体深度学习特征表示视频语义
结项摘要

With the explosive growth of video contents and users, computer technology is urgently needed to achieve intelligent video content analysis for regulatory review or user search. Effective video feature representation is the basis of intelligent video analysis. However, most of the existing video feature representation researches are limited to the video classification, video object detection or tracking, while ignoring the spatial-temporal relationship of the objects. In this project, we will focus on the multi-modal semantic graph-driven video representation. The research plan has three important steps: (1) To deal with video data with complex semantics, we study effective methods to build multi-modal semantic graph based on video visual relationship detection. Then we study the effective methods for multi-modal semantic graph completion based on graph deep learning. (2) Based on the constructed multi-modal semantic graph, we study the methods of graph representation based on multi-modal graph deep learning, which aims to obtain the local feature representation, global feature representation, and the knowledge representation of the corresponding video sequence. (3) We will study video captioning based on the proposed video feature representation method, which is able to qualitative and quantitative evaluate the effectiveness of the proposed multi-modal semantic graph-driven video representation approach.

随着视频用户规模的扩大和使用时长的增加,无论是监管部门的审核还是用户的观看与检索都迫切需要计算机技术实现对视频内容进行智能分析,视频智能分析的基础是有效的视频特征表示。现有研究大都局限在以视频片段分类或视频物体检测跟踪为研究目标,而忽视了视频中物体之间的关系信息。本项目重点研究基于多模态语义图谱的视频特征表示方法,主要研究工作将从如下三个方面展开:(1)针对具有复杂语义的视频数据,研究基于视频视觉关系检测的结构化多模态语义图谱的构建方法,并研究利用图深度学习对从视频数据中构建的多模态语义图谱进行补全;(2)基于构建的多模态语义图谱,研究基于多模态图深度学习的视频多模态语义图谱的向量化表示,从图谱中获得视频的局部、全局以及知识特征表示;(3)研究基于多模态语义图谱的视频文本描述生成,可对基于多模态语义图谱获得的视频特征表示进行定量与定性评估。

项目摘要

随着视频用户规模的扩大和使用时长的增加,无论是监管部门的审核还是用户的观看与检索都迫切需要计算机技术实现对视频内容进行智能分析,视频智能分析的基础是有效的视频特征表示。现有研究大都局限在以视频片段分类或视频物体检测跟踪为研究目标,而忽视了视频中物体之间的关系信息。本项目重点研究基于多模态语义图谱的视频特征表示方法,主要研究工作从如下三个方面展开:(1)针对具有复杂语义的视频数据,研究基于视频视觉关系检测的结构化多模态语义图谱的构建方法,并研究利用图深度学习对从视频数据中构建的多模态语义图谱进行补全;(2)基于构建的多模态语义图谱,研究基于多模态图深度学习的视频多模态语义图谱的向量化表示,从图谱中获得视频的局部、全局以及知识特征表示;(3)研究基于多模态语义图谱的视频文本跨模态检索与生成,可对基于多模态语义图谱获得的视频特征表示进行定量与定性评估。本项目的研究成果可以服务于结构化跨模态视频检索、互联网视频广告精细投放等应用,为下一代智能视频分析与管理系统提供切实可行的解决方案,有着巨大的商业价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

现代优化理论与应用

现代优化理论与应用

DOI:10.1360/SSM-2020-0035
发表时间:2020
2

基于直观图的三支概念获取及属性特征分析

基于直观图的三支概念获取及属性特征分析

DOI:10.3778/j.issn.1673-9418.2104120
发表时间:
3

基于直觉模糊二元语义交互式群决策的技术创新项目选择

基于直觉模糊二元语义交互式群决策的技术创新项目选择

DOI:10.12005/orms.2019.0029
发表时间:2019
4

城市生活垃圾热值的特征变量选择方法及预测建模

城市生活垃圾热值的特征变量选择方法及预测建模

DOI:10.11936/bjutxb2021010011
发表时间:2021
5

TVBN-ResNeXt:解决动作视频分类的端到端时空双流融合网络

TVBN-ResNeXt:解决动作视频分类的端到端时空双流融合网络

DOI:10.16798/j.issn.1003-0530.2020.01.008
发表时间:2020

年福东的其他基金

相似国自然基金

1

基于多模态特征语义融合的网络不良视频识别

批准号:61103056
批准年份:2011
负责人:左海强
学科分类:F0605
资助金额:21.00
项目类别:青年科学基金项目
2

基于多模态融合的语义表示学习方法

批准号:61872113
批准年份:2018
负责人:陈清财
学科分类:F0211
资助金额:64.00
项目类别:面上项目
3

基于多模态融合机制的视频语义表征方法研究

批准号:61702313
批准年份:2017
负责人:侯素娟
学科分类:F0210
资助金额:25.00
项目类别:青年科学基金项目
4

基于多重特征关联的视频GIS数据多模态检索方法

批准号:41571389
批准年份:2015
负责人:胡斌
学科分类:D0114
资助金额:60.00
项目类别:面上项目