Human activity recognition is one of the hot and challenging research topics in video understanding field. Compared to the RGB videos, RGB-Depth (RGB-D) visual information can help to better characterize human activity in 3D space, from both the perspectives of motion and appearance. Being different from the existing hand-craft visual descriptor extraction paradigms, this proposal introduces deep convolutional neural network (DCNN) to RGB-D activity recognition task. The optimal visual features for activity characterization is consequently extracted, according to the principle of deep feature learning. Appropriate DCNN architecture is investigated to avoid over-fitting on the training samples. Data generative model is simultaneously employed to further enhance the discriminative power of the extracted features. The abundant training information in RGB domain is transferred to RGB-D domain using the transfer learning technology, to overcome the lack of sufficient RGB-D samples. In addition, an efficient moving object detection method is employed to refine the motion information extraction procedure for human activity description. From both the perspectives of boosting RGB-D human activity recognition theory and application potentiality, this proposal possesses significant contributions.
人体行为识别是视频理解领域中的热点和难点问题之一。与单纯基于RGB视频识别人体行为相比,综合利用RGB与深度(RGB-D)视觉信息可以更好地表征人体行为在三维空间中的运动与外观特性,也是当前亟待研究的科学问题。本项目突破手工定义视觉特征的理论框架,将深层卷积神经网络引入到RGB-D人体行为识别的任务中,以深层特征学习的方式,获取最有利于描述人体行为的特征。重点研究如何设计合理的神经网络结构来避免对训练样本的过拟合,同时利用数据生成模型来增强特征的描述能力。针对RGB-D人体行为训练样本量相对较少的问题,本项目提出利用迁移学习技术,将可大量获取的RGB域样本信息转移到RGB-D域中。此外,本项目还将利用最新的运动物体快速检测方法来改善人体行为运动信息的提取效果。无论是从RGB-D人体行为识别理论完善的角度,还是从视频理解技术应用的角度来看,本项目都有重要的理论意义和广泛的应用前景。
人体行为识别是视频理解领域中的热点和难点问题之一。与单纯基于RGB视频识别人体行为相比,综合利用RGB与深度(RGB-D)视觉信息可以更好地表征人体行为在三维空间中的运动与外观特性,也是当前亟待研究的科学问题。本项目的主要研究内容包括:(1)突破手工定义视觉特征的理论框架,将深层卷积神经网络引入到RGB-D人体行为识别的任务中,获取最有利于描述人体行为的特征。重点研究如何设计合理的神经网络结构来避免对训练样本的过拟合,同时利用数据生成模型来增强特征的描述能力;(2)针对RGB-D人体行为训练样本量相对较少的问题,提出利用迁移学习技术将可大量获取的RGB域样本信息转移到RGB-D域中;(3)利用最新的运动物体快速检测方法来改善人体行为运动信息的提取效果。本项目取得了一批具有较高学术水平的研究成果。发表IEEE Transactions期刊论文4篇,合计发表SCI论文11篇,会议论文3篇(CVPR论文1篇),获得国家发明专利2项,申请5项。培养博士研究生2名,硕士研究生2名。代表性研究成果包括:(1)针对深度视频,提出了一种基于多视角动态图的人体行为识别方法,发表在中科院1区期刊Information Sciences上,其主要理论贡献为:(a)将视频动态图的概念引入到深度视频领域,能够快速有效地抓取人体行为的外观与运动特征;(b)结合深度视频的3D特性,提出了多视角动态图的概念;(c)针对多视角动态图的特点,提出了一种能够有效避免过拟合的深度学习模型。(2)针对深度视频,提出了一种人体坠床检测识别方法,发表在中科院2区期刊IEEE Transactions on Automation Science and Engineering上,其主要理论贡献为:(a)提出了一种有效且实时的人体检测方法,其特点是在发生人物互动时依然能有效工作;(b)提出了一整套针对坠床检测的软硬件解决方案。(3)针对RGB视频,提出了一种泛化目标检测方案,发表在中科院2区期刊IEEE Transactions on Image Processing上,其主要理论贡献为:(a)提出了目标基元的概念,可以有效抓取不同类型目标之间的共性特征;(b)提出了一种基于紧致度思想的目标性测度准则。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
Influencing factors of carbon emissions in transportation industry based on CD function and LMDI decomposition model: China as an example
粗颗粒土的静止土压力系数非线性分析与计算方法
The Role of Osteokines in Sarcopenia: Therapeutic Directions and Application Prospects
中国参与全球价值链的环境效应分析
RGB-D视频序列特征的深度学习模型及在人体行为识别中的应用
基于小样本深度学习的雷达图像人体行为识别方法
基于RGB-D图像序列和加速度信号融合的人体动作识别方法研究
流形空间的深度学习模型及多视角人体行为识别方法研究