The changing pattern of action video is very complicated. How to describe this changing pattern, capture the nonlinear structure embedded in video data and learn action video feature, which are research hotpots in action recognition. Oriented the application in human action recognition for multi view video, this project proposes to use manifold to represent the nonlinear structure existing in video data, to establish a deep learning model in manifold space for learning video action feature, and to fuse manifold features of multi view video for human action recognition. In particular, this research focuses on manifold representation for different image and video data, explores the manifold nature, measurement and calculation, establishes deep learning model in manifold space, solves the training problem of deep learning model in manifold space, develops fusion method of different manifold feature, and implements human action recognition based on multiple view video in manifold space. The final goals of this project are to break through the traditional bottleneck of multi-view action recognition, provide theory and technology for deep learning in manifold space, and give a new approach on action recognition technology.
人体行为视频具有复杂的变化模式,如何有效描述这种变化模式,挖掘数据中隐藏的非线性结构,从视频数据中学习行为的表示特征是目前行为识别的研究热点。本项目面向基于多视角视频的行为识别应用,针对行为视频等高维非线性数据,采用流形表示与学习方法分析数据内在的非线性结构,并在流形空间上建立深度学习模型,学习并融合多视角行为的流形特征,实现人体行为识别。重点研究不同图像视频数据的流形表示,探索流形空间的性质、度量和运算,研究和建立流形空间上的深度学习模型,解决流形上深度学习模型的训练问题,发展流形空间不同视角视频特征的融合方法,实现流形上的多视角视频的行为识别。突破传统识别方法在多视角行为视频识别方面的局限性,为流形空间的深度学习模型提供理论与技术支撑,也为多视角行为识别问题提供新的解决方案。
深度学习模型由于其突出的特征表示学习能力而备受关注,大部分已有的深度学习模型都是在欧氏空间进行表示、学习的,现实中的许多数据本质上是处于流形空间的。本项目面向人体行为视频数据,以行为视频数据在流形空间的分析与理解的关键问题为重点,以建立流形上深度学习模型为目标,在研究分析视频数据特点的同时,针对不同类型的行为视频数据,首先提出了视频数据的张量表示,并研究了张量数据的若干降维方法,实现了视频的降维表达;研究了视频数据的多种流形表示方法,以便于根据数据的特点采用不同的流形表示方式;探讨了多视角视频的乘积流形融合表示方法,实现多视角视频的融合;基于深度学习的理论和方法,建立了流形空间的深度学习模型以及流形上模型的优化算法,实现了流形特征深度学习表示。本项目的成果不仅对行为视频的深度学习模型研究具有重要意义,而且能够发展具有一般意义的相关理论方法。.经过四年的努力,已全面完成计划的各项任务。在国际、国内期刊发表(含已录用)论文17篇,其中在国际期刊发表论文16篇(SCI检索16篇),国内期刊发表论文1篇,在本领域主流国际会议上发表论文7篇;培养硕士、博士研究生6名;申请国家发明专利8项,其中授权3项,授权美国发明专利1项。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应
基于小样本深度学习的雷达图像人体行为识别方法
多视图深度学习的RGBD人体行为识别与理解
基于黎曼空间模型的多模态Web图像流形学习及检索研究
基于深度时空层级模型的人体活动识别方法研究