知识驱动的视频文本描述生成

基本信息
批准号:61702511
项目类别:青年科学基金项目
资助金额:29.00
负责人:杨小汕
学科分类:
依托单位:中国科学院自动化研究所
批准年份:2017
结题年份:2020
起止时间:2018-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:高君宇,黄晓雯,曹林林,樊艳波,潘兴甲,孟一平
关键词:
内容分析多媒体深度学习
结项摘要

With the rapid development of the video application, huge number of the videos have been uploaded on the Internet. Web users can conveniently access and browse these videos. However, it is also a very challenging task to automatically analyze and understand the semantic content contained in the complex video data. To explore more effective method for video content analysis, we will focus on the knowledge-driven video captioning in this project. The research plan has three important steps: (1) In knowledge representation, we mainly study mining attribute and relation knowledge from third-part un-structured/semi-structured data based on entity extraction, attribute extraction and relation extraction methods. We will adopt the deep representation learning algorithm to embed the visual attribute knowledge and the relative relation knowledge into a common semantic space. (2) In the video content understanding, we mainly study video highlight extraction based on deep learning and knowledge representation. We will adopt deep ranking model to learn the high-level semantic features of the video highlight part. (3) In the video description generation, we mainly study sentence generation method based on attribute networks and knowledge sensitive attention model. We will adopt structured prediction algorithm to model the visual relations among objects, actions and scenes in the video.

随着网络视频应用的不断普及和视频数量的爆发式增长,网络用户能便利地浏览海量的视频。但视频数据本身所具有的复杂特性也给自动分析和理解这些网络视频带来了巨大的挑战。为了探索更智能的视频内容分析方法,本项目重点研究知识驱动的视频文本描述生成方法。主要研究工作将从如下三个方面展开:(1)在知识学习方面,我们研究基于实体抽取、属性抽取和关系抽取等技术从第三方非结构化(或半结构化)数据集中挖掘属性知识和关系知识。拟采用深度表示学习技术把视觉属性知识以及相对关系知识嵌入到语义空间得到知识的实数化向量表示。(2)在视频内容理解方面,我们研究基于深度学习技术并结合知识表示提取视频中的重要片段。拟采用深度排序神经网络学习视频片段的高层语义特征表示。(3)在视频文本描述生成方面,我们研究基于属性学习网络和知识的关注度模型的文本描述生成方法。拟采用结构化学习方法建模视频中的物体、行为和场景等视觉对象之间的联系。

项目摘要

随着网络视频应用的不断普及和视频数量的爆发式增长,网络用户能便利地浏览海量的视频。但视频数据本身所具有的复杂特性也给自动分析和理解这些网络视频带来了巨大的挑战。本项目重点研究知识驱动的视频文本描述生成方法,有助于实现更智能的视频内容分析。主要研究内容包括三个方面:(1)在知识表示学习方面,我们研究了基于深度学习的视觉知识向量化表示方法。建立了基于物体关系知识的视频内容表示与关键内容提取模型。(2)基于深度排序神经网络,建立了视频的高层语义特征表示模型。提出了情感知识驱动的视频重要片段提取方法。(3)研究了融合问答知识和视觉属性的文本描述生成方法,建立了跨域个性化文本描述生成模型。相关研究成果已发表国内外重要期刊和会议论文10余篇。本项目的开展将有助于丰富和发展视频内容理解与视觉描述生成的理论与算法,也为互联网内容安全监测、个性化内容推送、互联网广告投放等应用提供技术支撑。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
2

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
3

一种改进的多目标正余弦优化算法

一种改进的多目标正余弦优化算法

DOI:
发表时间:2019
4

面向工件表面缺陷的无监督域适应方法

面向工件表面缺陷的无监督域适应方法

DOI:
发表时间:2021
5

采用深度学习的铣刀磨损状态预测模型

采用深度学习的铣刀磨损状态预测模型

DOI:10.3969/j.issn.1004-132x.2020.17.009
发表时间:2020

杨小汕的其他基金

相似国自然基金

1

基于知识引导与对抗学习的图像文本描述生成方法研究

批准号:61872366
批准年份:2018
负责人:刘静
学科分类:F0210
资助金额:65.00
项目类别:面上项目
2

基于深度学习的图像文本描述自动生成方法研究

批准号:61806218
批准年份:2018
负责人:郭延明
学科分类:F0604
资助金额:19.00
项目类别:青年科学基金项目
3

知识驱动的汉语网络文本依存句法分析

批准号:61876116
批准年份:2018
负责人:李正华
学科分类:F0606
资助金额:64.00
项目类别:面上项目
4

基于知识的协议形式描述半自动生成方法与支持环境

批准号:69173306
批准年份:1991
负责人:张尧学
学科分类:F0207
资助金额:4.00
项目类别:面上项目