面向短视频表示学习的技术研究

基本信息

批准号：61772310

项目类别：面上项目

资助金额：63.00

负责人：聂礼强

学科分类：

依托单位：山东大学

批准年份：2017

结题年份：2021

起止时间：2018-01-01 - 2021-12-31

项目状态：已结题

项目参与者：常晓军,宋雪萌,甘甜,刘萌,尉寅玮,刘金环,崔开元,孙文超,黄甜甜

关键词：

内容分析多模态融合短视频表示学习时序性建模

结项摘要

With the proliferation of mobile devices and media sharing techniques, an explosive growth of user generated micro-videos are being uploaded into social sites. In a sense, effective micro-video analysis and understanding is highly desired by the academic and industrial communities. Like other social media, micro-video representation is the prerequisite for the higher-order analytics. As compared to the representation learning of traditional videos, representation learning of micro-videos is far more challenging due to the following facts: 1) There is no public micro-video datasets; 2) Micro-videos are short and the semantic concepts they conveyed are sparse; 3) They suffer from modality-wise data missing and the data are of low quality; 4) They are organized into a tree structure regarding their venue category; And 5) micro-videos emphasize social interactions, holding more and heterogeneous modalities. To address the aforementioned problems, we in this proposal study the micro-video representation learning techniques. In particular, we first construct a large-scale and structured micro-video dataset. Based upon this dataset: 1) We devise a novel deep recurrent neural network scheme, incorporating the dictionary learning approach, to capture the sequential and sparse inherent attributes of micro-videos; 2) In order to compensate the data missing and low quality problems, we propose a multi-modal transfer learning method to borrow knowledge from external resources. And 3) we design a robust common space learning model, characterizing the modality relatedness of micro-videos and fusing the multimodal information, to comprehensively represent the given micro-videos. Our research can substantially propel the representation learning techniques of large-scale micro-videos, theoretically and applicably. Moreover, it can also offer the key algorithms for micro-video analysis and understanding.

随着短视频数量呈现爆炸式增长，高效地分析和理解短视频成为学术界和工业界的迫切需求。而有效的数据表示是对短视频进行高阶处理的前提。和传统视频表示学习相比，短视频表示学习具有较大难度：1）缺少公开的数据集；2）视频短且概念稀疏；3）数据块化缺失且质量差；4）关联结构化的地理信息； 5）突出社交属性，模态多且异构。为了精准地学习短视频的表示，本项目提出一套完整的短视频表示学习流程框架。首先构建一个大规模结构化的短视频数据集。在此基础上，本项目：1）借助深度递归神经网络的框架，融入字典学习，对短视频的时序关系和概念稀疏性进行建模；2）利用迁移学习技术吸收外部丰富的资源，弥补短视频单个模态信息缺失且质量低下的缺点；3）设计了新颖的共空间学习算法，探索多模态之间的关系，实现有效地多模态融合，以便更全面的表示短视频。本项目将有力推动大规模短视频表示学习的理论和应用，为短视频的分析和理解提供核心算法。

项目摘要

近年来，短视频逐渐成为信息记录和传播的一种重要方式。2016年仅秒拍短视频的日均上传量达到了150万，日均播放达到17亿次，日活跃用户6000万。短视频是多个模态的统一体，这些模块包括社交属性、文本描述、音频、视频等。数据表示在机器学习中占有和当重要的地位。本项目研究一种有效的从短视频的多个模态提取短视频特征的方法。该方法无需手动构造特征需，对人力和专业知识的依赖低。该表示方法有效、自动、易推广并能描述短视频内部的结构和属性，将原始多模态短视频转换成为能够被模型和算法有效使用的一种向量形式。 .本项目的主要研究内容包括：1）时序关系和概念稀疏性建模。短视频包含稀疏的语义概念，并且存在着视频片段间的时序关系。本项目借助深度递归神经网络的框架，融入稀疏宇典学习的方法，来同时建模时序关系和概念稀疏性的属性，提升短视频表示的准确度。2）模态知识的迁移学习。短视频的单个模态的信息经常缺失且质量低下，本项目利用迁移学习技术借助外部丰富的对应媒介资源，与短视频训练数据联合使用，取长补短，提升短视频表示学习的鲁棒性。3）多模态融合技术。对短视频的多个异构模态，分别设计了更为可靠的特征表示方法，并借助共空间学习（ Common Space Learning ）算法，实现更为有效的模态融合，更全面的表示短视频。本项目最终构建了微视频表示学习的框架，该框架能充分建模短视频的内部结构、外部资源以及多模态之间的关系，生成的特征向量对短视频具有很强的描述力。本项目完成大规模结构化短视频数据集构建，设计了一种基于LSTM和字典学习的短视频序列关系和概念稀疏性建模方法，提出了基于字典学习的模态知识迁移算法，提出了考虑模态关系的多模态融合方法，完成相关著作一部，发表37篇国际会议和期刊论文，申请中国专利13项。本项目为公共安全提供技术支持，有助于维护社会稳定。本项目符合国家科技发展规划，推动大数据应用，挖掘用户感兴趣的短视频，加速媒体网站发展，推动信息产业化步伐。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：

发表时间：2021

DOI：10.7524 /j.issn.0254-6108.2017122903

发表时间：2018

DOI：10.7606/j.issn.1000-7601.2021.04.29

发表时间：2021

DOI：10.12202/j.0476-0301.2022178

发表时间：2022

聂礼强的其他基金

相似国自然基金

面向网络多视频摘要的关联学习关键技术研究

批准号：61472273

批准年份：2014

负责人：冀中

学科分类：F0210

资助金额：81.00

项目类别：面上项目

面向残缺网络数据的表示学习研究

批准号：61902020

批准年份：2019

负责人：王铮

学科分类：F0202

资助金额：28.00

项目类别：青年科学基金项目

面向微视频情感分析的多通道特征学习关键技术研究

批准号：61402091

批准年份：2014

负责人：张一飞

学科分类：F0202

资助金额：26.00

项目类别：青年科学基金项目

面向数据表示的深度稀疏保持学习

批准号：61300154

批准年份：2013

负责人：乔立山

学科分类：F0605

资助金额：23.00

项目类别：青年科学基金项目

面向短视频表示学习的技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于国产化替代环境下高校计算机教学的研究

基于铁路客流分配的旅客列车开行方案调整方法

珠江口生物中多氯萘、六氯丁二烯和五氯苯酚的含量水平和分布特征

向日葵种质资源苗期抗旱性鉴定及抗旱指标筛选

复杂系统科学研究进展

聂礼强的其他基金

相似国自然基金