With the rapid development of the video application, huge number of the videos have been uploaded on the Internet. Web users can conveniently access and browse these videos. However, it is also a very challenging task to automatically analyze and understand the semantic content contained in the complex video data. To explore more effective method for video content analysis, we will focus on the knowledge-driven video captioning in this project. The research plan has three important steps: (1) In knowledge representation, we mainly study mining attribute and relation knowledge from third-part un-structured/semi-structured data based on entity extraction, attribute extraction and relation extraction methods. We will adopt the deep representation learning algorithm to embed the visual attribute knowledge and the relative relation knowledge into a common semantic space. (2) In the video content understanding, we mainly study video highlight extraction based on deep learning and knowledge representation. We will adopt deep ranking model to learn the high-level semantic features of the video highlight part. (3) In the video description generation, we mainly study sentence generation method based on attribute networks and knowledge sensitive attention model. We will adopt structured prediction algorithm to model the visual relations among objects, actions and scenes in the video.
随着网络视频应用的不断普及和视频数量的爆发式增长,网络用户能便利地浏览海量的视频。但视频数据本身所具有的复杂特性也给自动分析和理解这些网络视频带来了巨大的挑战。为了探索更智能的视频内容分析方法,本项目重点研究知识驱动的视频文本描述生成方法。主要研究工作将从如下三个方面展开:(1)在知识学习方面,我们研究基于实体抽取、属性抽取和关系抽取等技术从第三方非结构化(或半结构化)数据集中挖掘属性知识和关系知识。拟采用深度表示学习技术把视觉属性知识以及相对关系知识嵌入到语义空间得到知识的实数化向量表示。(2)在视频内容理解方面,我们研究基于深度学习技术并结合知识表示提取视频中的重要片段。拟采用深度排序神经网络学习视频片段的高层语义特征表示。(3)在视频文本描述生成方面,我们研究基于属性学习网络和知识的关注度模型的文本描述生成方法。拟采用结构化学习方法建模视频中的物体、行为和场景等视觉对象之间的联系。
随着网络视频应用的不断普及和视频数量的爆发式增长,网络用户能便利地浏览海量的视频。但视频数据本身所具有的复杂特性也给自动分析和理解这些网络视频带来了巨大的挑战。本项目重点研究知识驱动的视频文本描述生成方法,有助于实现更智能的视频内容分析。主要研究内容包括三个方面:(1)在知识表示学习方面,我们研究了基于深度学习的视觉知识向量化表示方法。建立了基于物体关系知识的视频内容表示与关键内容提取模型。(2)基于深度排序神经网络,建立了视频的高层语义特征表示模型。提出了情感知识驱动的视频重要片段提取方法。(3)研究了融合问答知识和视觉属性的文本描述生成方法,建立了跨域个性化文本描述生成模型。相关研究成果已发表国内外重要期刊和会议论文10余篇。本项目的开展将有助于丰富和发展视频内容理解与视觉描述生成的理论与算法,也为互联网内容安全监测、个性化内容推送、互联网广告投放等应用提供技术支撑。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
面向工件表面缺陷的无监督域适应方法
采用深度学习的铣刀磨损状态预测模型
基于知识引导与对抗学习的图像文本描述生成方法研究
基于深度学习的图像文本描述自动生成方法研究
知识驱动的汉语网络文本依存句法分析
基于知识的协议形式描述半自动生成方法与支持环境