Current human action understanding mainly focuses on action classification and recognition. There is less research on action detection and especially on action prediction. This project reforms the study of human action understanding from simple recognition to detection and prediction, from handling a segmented short video containing only one action class to the complex long video containing multiple persons and multiple action classes, from offline classification processing to online detection and prediction, and from theoretical research as the main objective to paying more attention on the practical application value. The main research content includes: (1) for low-level feature extraction, propose a oriented motion salient region descriptor and a graph based heat kernel structural descriptor; (2) for middle-level video action representation, propose a non-parametric Bayesian based multi-task sparse learning model for multiple features joint representation; (3) for high-level action detection and prediction, develop a random forest and hough voting based action detection strategy and a structured output SVM (SOSVM) based action prediction framework. The project stands on the academic frontier and will make a series of advanced work on human action understanding to provide the related theories and key techniques for video retrieval, visual intelligent surveillance and other areas.
现有的视频行为理解主要集中在行为分类和识别上,对于行为检测特别是预测的研究相对较少。本项目将视频行为理解的研究从单纯的行为识别扩展到对行为进行识别的同时实现检测和预测;从分割好的仅包含一种行为的短视频提升到包含多人多种行为的复杂长视频的研究;从离线的分类处理到在线的检测预测处理;从理论研究为主要目标发展到越来越关注在实际中的应用价值。主要研究内容包括:(1)底层特征提取,拟提出基于有向运动显著性区域的描述子和基于图的热核结构描述子;(2)中层视频行为表示,拟提出一种基于非参数贝叶斯模型的多任务稀疏学习方法进行多特征联合视频表示;(3)高层行为检测、预测,拟提出一种基于随机森林和Hough投票的检测策略,和一种基于结构化输出支持向量机的行为预测框架。本项目立足于前沿,将在行为理解领域做出一系列国际领先工作,并为视频检索、视觉智能监控等领域提供相关理论和关键技术。
目前已经全面完成了本项目的研究目标和内容。本项目根据项目计划书的规定,开展对多任务学习的视频行为理解的研究。先后提出了基于非参数贝叶斯模型的多任务稀疏表示方法、基于图结构的三维人体行为表示和相似性度量算法、基于时空亲近核的算法及在人体行为识别的应用、基于图核的人体行为识别算法、基于上下文核的R特征和局部特征融合的行为识别方法、基于贝叶斯多核学习的人体行为识别方法、基于自适应自组织的无监督视频特征学习和行为识别算法、基于交互感知的注意力神经网络模型的行为分类算法、基于分类-回归联合任务的递归神经网络的在线人体行为检测算法、基于深度时空自组织神经网络的视频动态目标检测方法、基于深度长短时记忆序列卷积神经网络的视频行为预测方法、基于多样性网络集成深度模型的人体行为预测方法和基于时间加权的泛化时间解旋的人体行为预测方法等。部分技术已成功应用于开发的便携式手机特定视频检测装备和网络异质媒体监测系统。项目执行期内,在 IJCV、PAMI 等 IEEE Transactions 上和 ICCV、ECCV、CVPR、AAAI等上发表论文论著共 17 篇,申请专利8 项。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于多任务稀疏特征学习的海量图像理解方法研究
基于音视频特征多任务学习的暴力视频检测方法研究
基于动态多模态多任务学习的视觉场景理解方法研究
基于场景语意理解和深度学习特征表述的视频行为分析研究