视频中的三维人体姿态估计与行为识别

基本信息
批准号:61806176
项目类别:青年科学基金项目
资助金额:26.00
负责人:周晓巍
学科分类:
依托单位:浙江大学
批准年份:2018
结题年份:2021
起止时间:2019-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:赵长飞,杨镑镑,丁奇超,钱权浩
关键词:
行为识别姿态识别
结项摘要

Recovering human poses and motion from a video and recognizing the activity has many applications in various areas such as surveillance and security, human-computer interaction and augmented reality. Existing video analysis algorithms are mostly based on 2D appearance features while ignoring pose and motion features of human body. These 3D features not only provide additional information for recognition, but also are more robust to viewpoint and illumination variations. Acquiring 3D information requires depth sensors, which are expensive, limited in sensing range, sensitive to illumination change, and consequently difficult to be widely deployed in outdoor environments. Therefore, how to recover 3D information of human body from a monocular video and make use of it for activity recognition has become a challenging and important problem in computer vision. This proposal aims to investigate the 3D human pose estimation problem based on deep learning. We plan to develop weakly-supervised methods and combine deep learning with geometric models, in order to alleviate the limitations of current methods such as heavy dependency on training data and the poor generalization ability. The objective is to solve the 3D human pose estimation problem in unconstrained environments, such as outdoor and multi-person scenarios, and leverage the recovered 3D pose and motion features to improve the accuracy and robustness of activity recognition.

从视频中还原人体的姿态和运动,进而识别其行为,在安防、人机交互和增强现实等领域都有广泛的应用。现有的视频分析算法一般基于人体和场景的外观特征,而没有充分地利用人体的三维姿态和运动特征。这些三维特征不仅能够为识别提供更为丰富的信息,而且对视角和光照等变化更为鲁棒。三维信息的获取可借助于深度传感器,但它们成本高,传感距离有限,而且对光照敏感,很难在室外场景得到广泛应用。因此,如何从单目视频中还原人体的三维信息,进而帮助视频分析,已成为计算机视觉领域的重大挑战和关键问题之一。本项目旨在研究基于深度学习的三维人体姿态估计方法,通过弱监督学习并融合几何模型,改善现有方法对训练数据过度依赖以及泛化能力不足等缺点,解决在户外场景、多人场景等非限定条件下的三维人体姿态估计问题,并在此基础上利用三维姿态和运动特征提升行为识别的准确性和鲁棒性。

项目摘要

基于视频的三维人体姿态估计与行为识别是计算机视觉研究中的热点问题之一,在过去十多年内也取得了长足的进展,但在实际应用中仍然面临着鲁棒性、泛化性、效率等方面的不足。为解决这些问题,本项目围绕单目三维姿态估计、多视点三维姿态估计、基于人体姿态和运动特征的行为识别等方面开展了系统深入的研究,提出了一系列具有创新性和实用价值的理论与方法,在国际计算机视觉顶级期刊与会议(T-PAMI、CVPR、ECCV)上发表研究论文9篇,其中大会口头报告3次(接受率约5%),并获得CVPR 2021 Best Paper Candidate(0.5%),在国内高水平期刊上发表综述论文1篇,申请国家发明专利5项,并与商汤科技、华为等知名企业合作开展了产业化应用。主要成果包括:1)提出了一系列基于单目视频的三维人体姿态估计方法,解决了单目姿态估计问题中的深度歧义性、全局一致性、多人相互遮挡等技术难题;2)提出了一系列基于多视点视频的三维人体姿态估计方法,构建了实时鲁棒的无标记多人运动捕捉系统;3)提出了端到端的姿态与动作联合优化框架,实现了姿态估计与行为识别的交替优化,同步提升了两个任务的准确率;4)构建了一套人体运动捕捉开源工具库EasyMocap,获得2021年中国计算机学会CAD&CG专委会“优秀图形开源软件奖”,与本项目相关的开源代码在Github上获得star数量达2千余次,形成了较大的影响力;5)构建了大规模人体运动捕捉数据集ZJU-MoCap,为基于视频的三维人体姿态估计算法的开发与测试提供了大规模、多样的真实数据,已被国内外众多知名研究团队使用。人才培养方面,项目组成员获得了“陆增镛CAD&CG高科技奖”一等奖、中国计算机学会计算机视觉专委会“学术新锐奖”、Apple Scholar in AI/ML,并依托项目成果两次获得中国研究生人工智能创新大赛一等奖。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
2

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
3

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
4

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

DOI:10.19783/j.cnki.pspc.200521
发表时间:2021
5

基于Pickering 乳液的分子印迹技术

基于Pickering 乳液的分子印迹技术

DOI:10.1360/N972018-00955
发表时间:2019

周晓巍的其他基金

相似国自然基金

1

基于元姿态的无约束环境中三维人体姿态估计研究

批准号:61902321
批准年份:2019
负责人:梁国强
学科分类:F0210
资助金额:25.00
项目类别:青年科学基金项目
2

不完整人体运动捕获数据中的姿态与行为识别技术研究

批准号:61202298
批准年份:2012
负责人:彭淑娟
学科分类:F0209
资助金额:24.00
项目类别:青年科学基金项目
3

基于单目视频的人体三维运动姿态恢复方法研究

批准号:61040009
批准年份:2010
负责人:陈姝
学科分类:F0605
资助金额:10.00
项目类别:专项基金项目
4

智能视频监控中基于多模态融合的人体行为识别研究

批准号:61871196
批准年份:2018
负责人:张洪博
学科分类:F0117
资助金额:63.00
项目类别:面上项目