As the development of the video capturing technology, surveillance video is infiltrating into human's life. How to automatically understand human's activity in videos is the key issue of the intelligent surveillance technology. Recently, the availability of the device which captures RGB and depth data synchronously provides new opportunity for human action recognition in videos. This project is to research into several key issues of human action recognition for RGB-D videos, considering the shortage of the current works. Firstly, we plan to study a depth video feature extraction method based on 3D surface of human body, as an important supplement for RGB features. Then, we plan to describe and represent human actions in videos by combining the information from RGB and depth channels, and by utilizing the spatial-temporal information of local features. Specifically, we plan to propose an action description method based on two-channel sparse coding and spatial-temporal pyramid kernel. Besides, we plan to propose a method for 4D spatial-temporal trajectory generation and description. Finally, we plan to study a human action recognition method based on multi-view local classifiers to solve the problem of huge intra-class variation. This project will theoretically push forward the development of human action recognition in videos and practically provide key technology for the applications of the intelligent surveillance systems.
随着视频数据采集技术的飞速发展,监控视频正渗透到人们生活的各个方面,如何自动的理解视频中出现的人的动作是智能视频监控技术中的关键问题。近来,同步采集RGB和深度数据设备的面世,为视频人体动作识别提供了新的契机。本项目将针对现有工作的不足,面向RGB-D视频对人体动作识别的若干关键问题展开研究。首先,将基于人体的三维表面研究深度视频底层特征,作为RGB特征的重要补充。然后,将结合RGB和深度两个通道信息,并充分利用局部特征的时空位置信息,对视频中的动作进行描述和表征。具体的,将研究基于双通道稀疏编码的时空金字塔的动作描述方法,以及一种4维时空轨迹的生成和描述方法。最后,将研究基于多通道特征的局部分类器的动作识别方法,以解决同类动作类内差异大的问题。本项目将在理论上推动视频人体动作识别研究的发展,并在实际中为智能视频监控系统的应用提供关键技术。
识别和理解视频中所发生的人的动作和行为对视频内容管理、智能视频监控、人机交互和智能家居等各方面具有重要意义。本项目基于Kinect 摄像机所提供的同步RGB-D视频,构建视频人体动作数据集,并对视频中出现的人体动作进行识别,在人体动作的特征提取、动作的描述和表征、动作的识别等关键性问题上展开了深入研究。.经过三年的研究工作,本项目构建并发布了一个RGB-D人体动作视频数据集;利用深度数据的特点,提出了一种新颖的鲁棒的特征用来描述点云中参考点周围邻居点相对于参考点的位置偏移的统计信息;并提出了基于该特征的三种人体动作描述策略,包括基于骨骼的策略、基于随机参考点的策略和时空策略,实验结果表明,基于时空策略的动作表示效果最好;传统动作识别方法仅仅将RGB和深度信息进行直接融合,无法发挥两者的优势,我们提出了一种RGB-D视频动作描述方法,利用RGB数据对人体表面的具体区块进行跟踪,并利用深度数据对这些区块进行描述,并利用时间金字塔模型对同样层级的特征段进行匹配,实验表明,该方法优于RGB局部时空特征、基于轨迹的特征和基于人体关节点位置的特征;基于RGB-D视频中常用的三种类型的特征,即RGB局部时空特征、骨骼点特征和点云特征,我们研究了利用稀疏表示方法融合多通道特征的问题,我们基于稀疏表示法提出了三种融合策略,在实验中,我们验证了三种融合策略的性能,并且详细得分析了三种特征表示描述人体动作的能力。.以上研究成果对提高RGB-D视频中的人体动作识别的准确率具有重要意义,从而能够推动公共场所安全监控、个人生活智能监控以及人机交互等领域的发展。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于铁路客流分配的旅客列车开行方案调整方法
基于多色集合理论的医院异常工作流处理建模
基于改进LinkNet的寒旱区遥感图像河流识别方法
带有滑动摩擦摆支座的500 kV变压器地震响应
基于腔内级联变频的0.63μm波段多波长激光器
视频人体意外动作识别与定位方法研究
基于RGB-D图像序列和加速度信号融合的人体动作识别方法研究
面向服务机器人的人体动作分析与识别
RGB-D视频序列特征的深度学习模型及在人体行为识别中的应用