Human action representation in 3D depth videos is one of most important and active research topics in computer vision. An effective and robust 3D action representation is fundamental to action analysis, retrieval and recognition, etc. However, a large majority of the existing methods usually employ the raw skeleton and depth data or a simple description as action representations in a specific scenario and for a particular application. An effective and robust action representation with well generalization of environmental variations, pose variations, and different applications is lacking. This project aims to propose a hierarchical action representation to overcome those mentioned problems and meet various applications in action analysis, action retrieval, and action recognition. First, a Rotation and Relative Velocity (RRV) invariant descriptor will be devised to represent rigid body motion trajectories. A middle-level action representation is a combination of such RRV descriptors of each rigid body in a human skeleton, while we decompose a human skeleton into a five rigid bodies. Such action representation will enjoy rich properties of invariance, locality, and robustness. Second, to extract local richer features to model the statistics of a human action toward fitting a linear discriminative model, a high-level action representation will be obtained by exploring temporal self-similarities over time within a middle-level action representation. Finally, we further improve the discriminative power of the proposed action representations to obtain a discrminative action representation by formulating a hierarchical mixed-norm to regularize the structured features of each rigid body and to apply sparsity between them, in favor of a group feature selection.
三维人体动作表示方法是计算机视觉领域研究的热点问题之一,是动作分析、理解、检索和识别等应用的重要基础。现有的相关研究多针对一种特定应用场景采用人体骨架关节与深度图像的原始数据或简单的描述,不仅面临噪音、环境变化和人体形态变化等问题,而且缺少一个适应于不同应用场景的系统动作表示方法。本课题拟提出基于刚体运动轨迹的动作分层表示方法,有效克服上述问题并可满足不同的动作应用场景要求。首先,通过研究刚体运动轨迹的旋转速度不变量描述子RRV来表示人体骨架中每个刚体运动,得到具有不变性、局部性和鲁棒性的人体中层动作表示。其次,引入时间自相似性研究来提取更丰富的动作局部特征及其特征统计属性,得到动作高层表示以匹配快速线性判别模型。最后,研究基于不同笵数惩罚在线性模型优化中的系数收缩效应提出一个分层混合笵数惩罚项,实现每个动作类型中显著运动刚体和判别性特征的自动选择机制,得到具有高辨别力的动作判别性表示方法。
三维人体动作表示方法是计算机视觉领域研究的热点问题之一,是行为和动作理解、分析、检索和识别等应用领域的重要理论基础。现有相关研究多针对一种特定应用场景采用人体骨架关节与深度图像的原始数据或简单的描述,不仅面临噪音、环境变化和人体形态变化等问题,而且缺少一个适应于不同应用场景的系统动作表示方法。项目研究了人体三维动作的不变量描述模型,提出了基于刚体运动轨迹的人体动作时空不变量的描述模型用于人体中层表示,解决多视角和噪音环境下的动作描述和识别问题;针对人体动作中视觉关键点的运动轨迹描述,提出一个基于局部参考系的视觉不变量描述方法。针对人体复杂动作表示与识别,通过分析人体骨架各运动部件在动作表示和识别中的显著性与特征判别性,提出一个有效的人体动作分层学习模型,学习具有高辨别力的动作表示方法。提出基于人体骨架自相似的动作高层表示方法,学习人体骨架多尺度局部自相似特征,实现端到端的深度学习模型。此外针对上述研究的基础工作,科研团队成员分别提出了一系列的视觉目标跟踪算法和图像分割算法,为三维人体分层表示方法研究提供理论基础和技术支持。综合上述结果,本研究成功提出了一系列的动作表示理论和技术,行成了一个系统的人体行为动作分层表示方法,促进了动作和行为理解领域中某些关键问题的解决。项目研究成果斐然,共发表高水平学术论文13篇,其中IEEE汇刊2篇,机器人顶级会议论文1篇,最佳会议论文奖1篇;培养博士研究生1名,硕士研究生2名;组织国内外专家来项目组作学术交流4人次,参加国内外学术会议4人次。项目投入经费18万元,支出14.8492万元,各项支出基本与预算相符,剩余经费将用于本项目后续研究支出。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
基于细粒度词表示的命名实体识别研究
水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
空气电晕放电发展过程的特征发射光谱分析与放电识别
基于三维刚体运动的游泳技术动作优化评估方法研究
基于人体姿态表示的动作识别方法研究
基于关键运动元检测的连续人体动作识别
复杂运动轨迹的不变量语义表示方法研究及应用