Since the static video summarization cannot reflect the video object information, and dynamic video summarization cannot give the whole object information globally, this project proposes objects based hierarchical video summarization, this method can not only globally show the main objects in video to the user, but also provide detailed information of the user-interested moving objects. For solving the problems of object representation and clustering, this project proposes a model of deep subspace representation. Using this model, the high-level features of the video object can be extracted and clustering results of the data can be obtained simultaneously. The proposed model can not only solve the problem of that common subspace representation methods are not good at dealing with nonlinear data, but also solve the subspace representation problem in data with group structure, at the same time, it can decrease the affects of noise during the clustering. The theoretical research of this project will provide new methods and ideas for the unsupervised clustering technology and video summarization technology. At the same time, the research results of this project can promote the development of smart city, and can bring huge economic benefits for intelligent monitoring, network search and other fields.
针对静态视频摘要不能反映视频中对象的活动信息,而动态视频摘要不能从宏观上给出视频对象信息的问题,本项目提出基于对象的分层视频摘要方法,该方法既可以全局地为用户呈现视频中的主要对象,也可以为用户提供其感兴趣对象的详细运动信息。为了解决对象的特征描述与聚类问题,本项目提出一种深度子空间表示模型。该模型可以生成数据的鲁棒的可分辨的高层特征,并同时学习数据的子空间划分;该模型不仅可以解决目前子空间表示方法不能很好处理非线性数据的问题,而且可以解决具有组结构特点的数据的子空间表示问题,并有效地减弱聚类过程中噪声的干扰。本项目的理论研究将为无监督聚类技术和视频摘要技术提供新的方法和思路,同时本项目的研究成果能推动智慧城市的发展,可以为智能监控、网络搜索等领域带来巨大的经济效益。
本项目从深度特征表示、深度度量学习、视频中的关键对象分析等方面展开了研究。(1)提出了基于视频对象的摘要自动生成方法,给定一个视频文件作为输入,自动生成短视频片段,每个视频代表所选对象的每个主题。也就是说,如果选择的对象是人脸,则每个视频片段将分别代表输入视频文件中出现的每个人。(2)提出了一种自监督深度子空间表示,该方法可以将视频中的人脸非线性地映射到潜在空间,并在编码器和解码器之间添加全连接层,以探索其自表达特性。由于视频中的人脸通常以一系列轨迹的形式存在,这些轨迹提供了先验知识。特别是来自同一轨迹的人脸可以被认为是同一个人,而出现在同一帧中的不同轨迹的人脸可以被认为是不同的人。将这些先验知识自动引入损失函数,以指导训练,从而获得具有更大区分度的特征表示。(3)提出了深度度量学习方法,由此构建的深度聚类网络中,损失函数由重构损失、聚类损失和判别损失三项构成。该方法首先通过自动编码器将图像非线性地嵌入到潜在空间中,计算重构损失,并学习原始图像的特征,根据该特征,计算聚类概率,用特征角代替参数,产生团簇损失,使得同一类内距离变小,同时引入了一种新的角度度量来计算判别损失,扩大簇间距离。本项目提出的这些放在不仅在自己构建的视频集中验证了其性能,而且在一些公开数据集上得到了不错的效果。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
基于深度语义表示和多文档摘要的学术文献自动综述研究
基于深度学习的外语视频个性化字幕呈现及摘要生成方法研究
基于分层深度表示的行为识别关键技术研究
基于分层超完备字典稀疏表示的深度学习算法研究及应用