Human action recognition based on 3D skeleton data is a hotspot in Computer Vision. It has wide applications in many fields, but still faces huge challenges, such as viewpoint variation. Since the appearance of 3D skeleton data captured from different viewpoints varies differently, the problem of viewpoint variation has been one of the most difficult research areas in action recognition. It is necessary to extract view-invariant features from the skeleton sequence to clear the misunderstanding brought by viewpoint changes. There are several works to extract View-invariant features by using projective invariants. However, these methods require the collinear and coplanar constraints, and are computational heavily. Based on these results, the following will be studied in this project. Firstly, due to the existence of noises and missing data in skeleton data, both an efficient algorithm for depth image enhancement and a unified algorithm for human motion data refinement and temporal segmentation will be designed such that high-quality skeleton data can be obtained. Secondly, an algorithm with low computation will be also developed to extract view-invariant features for skeleton sequences. Besides, it does not require the collinear and coplanar constraints. At last, since only skeleton data is difficult to describe human action well, multimodal data, i.e. color video data, depth sequence data and skeleton sequence data should been employed. By combing the semantic correlation and complementarity information among multiview features, an algorithm for adaptively selecting features and joints is presented, and then multimodal human action recognition is performed.
基于三维骨架序列的人体行为识别是计算机视觉领域的研究热点,在许多领域得到了广泛应用,但仍面临巨大挑战,如视角问题。由于不同拍摄视角给三维骨架外观带来很大的变化,视角问题已成为人体行为识别中的难点。为克服因视点变化而产生的歧义理解,必须获取骨架序列某些视角无关特征。有研究提出使用射影不变量来提取视角无关特征,但存在受共线或共面约束、计算量大等问题。基于此,本项目在现有工作的基础上,开展如下研究:首先,针对骨架数据存在噪声和数据缺失问题,设计高效的深度图像重建算法以及人体运动数据增强与时序分割统一算法,以获取高质量的骨架数据;然后,设计有效的方法,研究如何提取不受共线和共面约束、计算量小、又视角无关的骨架序列特征;最后,鉴于单一骨架数据很难全面地描述人体行为,利用多模态数据(即视频数据、深度图像序列、骨架序列)特征间的语义相关性和互补性,提出自适应特征选择与关节点选择的多模态人体行为识别算法。
基于三维骨架序列的人体行为识别是计算机视觉领域的研究热点,在众多领域得到了广泛应用。但由于受捕获设备、环境和拍摄视角等因素影响,基于三维骨架数据的人体行为识别仍存在巨大挑战。本项目充分考虑三维骨架数据的低秩性、时序平滑性、多子空间结构、保骨长等特点,重点围绕(彩色、深度)图像增强、骨架数据增强、骨架数据时序分割、视角不变性特征构造及人体行为识别等问题,提出了一系列的数学理论、模型与解决方法,取得了较好的研究成果。完成的主要研究内容及成果包括:1)在图像增强方面,结合低秩矩阵恢复理论和邻近不动点算法,提出了一种自适应惩罚的邻近不动点框架性算法,算法有严格的收敛性保证,证明方法新颖;2)在骨架数据恢复方面,引入非凸的矩阵Capped核范数,建立基于Capped核范数正则化的骨架数据恢复模型,利用交替方向乘子法提出了快速有效的优化算法;利用矩阵核范数和l1范数具有显式形式的邻近算子特点,提出了一类邻近不动点优化算法,给出了完整收敛性证明,该算法计算效率显著提升;3)在骨架数据时序分割方面,提出了一种自适应图的序列子空间聚类算法。通过样本距离自适应权重,该算法能较好地区分并聚类骨架数据的时序子空间结构;接着,融合运动数据时序的多子空间结构特征,提出了基于离散子空间结构约束的人体运动捕获数据增强算法;4)在视角不变性特征构造方面,以射影几何为工具,提出了共面五点和六点的三角特征数的一些构造方法。特征数作为射影不变量,能较好地应用于提取人体骨架关节点间的视角不变性特征;5)在人体行为识别方面,将骨架关节点视角不变性特征作为浅层特征,输入到长短期记忆(LSTM) 网络中提取深度特征并训练分类模型,提出一种基于LSTM 循环神经网络的人体骨架行为识别方法。该方法对MSRC-12数据集12种行为的平均分类识别率达到了95.29%。上述研究成果在学术上进一步完善了三维骨架数据分析的理论与方法,在实践上提升了行为识别的性能。本项目共发表学术论文18篇,其中SCI检索的期刊论文13篇,申请国家专利2项。项目整体执行情况良好,较好地完成了预期研究目标。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
论大数据环境对情报学发展的影响
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于概率图模型的视角无关人体动作建模与识别方法研究
流形空间的深度学习模型及多视角人体行为识别方法研究
基于混合属性分析的人体行为识别方法研究
视角无关的动作识别与行为建模方法研究