With the proliferation of mobile devices and media sharing techniques, an explosive growth of user generated micro-videos are being uploaded into social sites. In a sense, effective micro-video analysis and understanding is highly desired by the academic and industrial communities. Like other social media, micro-video representation is the prerequisite for the higher-order analytics. As compared to the representation learning of traditional videos, representation learning of micro-videos is far more challenging due to the following facts: 1) There is no public micro-video datasets; 2) Micro-videos are short and the semantic concepts they conveyed are sparse; 3) They suffer from modality-wise data missing and the data are of low quality; 4) They are organized into a tree structure regarding their venue category; And 5) micro-videos emphasize social interactions, holding more and heterogeneous modalities. To address the aforementioned problems, we in this proposal study the micro-video representation learning techniques. In particular, we first construct a large-scale and structured micro-video dataset. Based upon this dataset: 1) We devise a novel deep recurrent neural network scheme, incorporating the dictionary learning approach, to capture the sequential and sparse inherent attributes of micro-videos; 2) In order to compensate the data missing and low quality problems, we propose a multi-modal transfer learning method to borrow knowledge from external resources. And 3) we design a robust common space learning model, characterizing the modality relatedness of micro-videos and fusing the multimodal information, to comprehensively represent the given micro-videos. Our research can substantially propel the representation learning techniques of large-scale micro-videos, theoretically and applicably. Moreover, it can also offer the key algorithms for micro-video analysis and understanding.
随着短视频数量呈现爆炸式增长,高效地分析和理解短视频成为学术界和工业界的迫切需求。而有效的数据表示是对短视频进行高阶处理的前提。和传统视频表示学习相比,短视频表示学习具有较大难度:1)缺少公开的数据集;2)视频短且概念稀疏;3)数据块化缺失且质量差;4)关联结构化的地理信息; 5)突出社交属性,模态多且异构。为了精准地学习短视频的表示,本项目提出一套完整的短视频表示学习流程框架。首先构建一个大规模结构化的短视频数据集。在此基础上,本项目:1)借助深度递归神经网络的框架,融入字典学习,对短视频的时序关系和概念稀疏性进行建模;2)利用迁移学习技术吸收外部丰富的资源,弥补短视频单个模态信息缺失且质量低下的缺点;3)设计了新颖的共空间学习算法,探索多模态之间的关系,实现有效地多模态融合,以便更全面的表示短视频。本项目将有力推动大规模短视频表示学习的理论和应用,为短视频的分析和理解提供核心算法。
近年来,短视频逐渐成为信息记录和传播的一种重要方式。2016年仅秒拍短视频的日均上传量达到了150万,日均播放达到17亿次,日活跃用户6000万。短视频是多个模态的统一体,这些模块包括社交属性、文本描述、音频、视频等。数据表示在机器学习中占有和当重要的地位。本项目研究一种有效的从短视频的多个模态提取短视频特征的方法。该方法无需手动构造特征需,对人力和专业知识的依赖低。该表示方法有效、自动、易推广并能描述短视频内部的结构和属性,将原始多模态短视频转换成为能够被模型和算法有效使用的一种向量形式。 .本项目的主要研究内容包括:1)时序关系和概念稀疏性建模。短视频包含稀疏的语义概念,并且存在着视频片段间的时序关系。本项目借助深度递归神经网络的框架,融入稀疏宇典学习的方法,来同时建模时序关系和概念稀疏性的属性,提升短视频表示的准确度。2)模态知识的迁移学习。短视频的单个模态的信息经常缺失且质量低下,本项目利用迁移学习技术借助外部丰富的对应媒介资源,与短视频训练数据联合使用,取长补短,提升短视频表示学习的鲁棒性。3)多模态融合技术。对短视频的多个异构模态,分别设计了更为可靠的特征表示方法,并借助共空间学习( Common Space Learning )算法,实现更为有效的模态融合,更全面的表示短视频。本项目最终构建了微视频表示学习的框架,该框架能充分建模短视频的内部结构、外部资源以及多模态之间的关系,生成的特征向量对短视频具有很强的描述力。 本项目完成大规模结构化短视频数据集构建,设计了一种基于LSTM和字典学习的短视频序列关系和概念稀疏性建模方法,提出了基于字典学习的模态知识迁移算法,提出了考虑模态关系的多模态融合方法,完成相关著作一部,发表37篇国际会议和期刊论文,申请中国专利13项。本项目为公共安全提供技术支持,有助于维护社会稳定。本项目符合国家科技发展规划,推动大数据应用,挖掘用户感兴趣的短视频,加速媒体网站发展,推动信息产业化步伐。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
基于分形L系统的水稻根系建模方法研究
监管的非对称性、盈余管理模式选择与证监会执法效率?
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
针灸治疗胃食管反流病的研究进展
面向网络多视频摘要的关联学习关键技术研究
面向残缺网络数据的表示学习研究
面向微视频情感分析的多通道特征学习关键技术研究
面向数据表示的深度稀疏保持学习