Understanding human behaviors in videos has significant value for the technology of intelligent surveillance and human-computer interaction. The existing methods mostly assume that a video segment contains an activity, and the algorithms need to see the whole activity. How to recognize ongoing human activities in videos becomes a challenging problem in the process of the practical use of this technology. This project will study to detect and recognize the ongoing human activities under partial observation, and to anticipate the type of activity which may occur in the future under current observations. Specifically, we will propose an efficient and general learning method for activity representation by the characteristics of human activity and improving the structures of the convolutional neural networks. Then, we will study the methods for inferring the category of the whole activity based on partial observations, and propose a model for early recognition of human activities in segmented videos by the part-whole relation theory. Furthermore, we will model the window of the activity switch point in the unsegmented videos, and combine it into the previous model to construct a unified framework for the low latency recognition of activity in videos by which we will analyze the relation between the accuracy and the latency. At last, we will mine the temporal relation between the pre-and-post activities, and anticipate the type of activity which may occur in the future by the context. This project will promote effectively the development of the technology of understanding human activity in videos, and provide key algorithms for the intelligent surveillance systems and the human-computer interaction technology.
视频人体行为理解对于智能监控和人机交互技术来说具有重要意义。现有工作大部分假设一段视频只包含一个行为,并且算法需要观察到完整的行为数据。如何识别视频中正在发生的人体行为是该技术迈向实际应用进程中的一个挑战性问题。本课题研究在仅有部分观测数据时检测和识别视频中正在发生的行为,并基于当前数据预测未来可能会发生的行为类型。具体内容包括:结合人体行为的特点,改进卷积神经网络结构,拟提出高效且通用的行为表示学习方法;研究从部分观测中推测整体类型的方法,并基于部分-整体关系理论,拟提出一种已分割视频中行为早期识别的模型;对未分割视频中的行为切换点窗口进行建模,并加入上述模型以建立视频行为低延迟识别的统一框架,分析算法准确率和延迟之间的关系;挖掘前后行为之间的时间相关性,并结合环境上下文信息,预测未来可能会发生的行为。本课题将有力推动视频人体行为理解技术的发展,为智能监控系统和人机交互技术提供核心算法。
视频人体行为理解对于智能监控和人机交互技术来说具有重要意义。现有工作大部分假设 一段视频只包含一个行为,并且算法需要观察到完整的行为数据。如何识别视频中正在发生的人体行为是该技术迈向实际应用进程中的一个挑战性问题。本课题针对长视频中的行为理解问题,重点围绕长视频中所发生的多个行为动作的时序定位和识别问题展开研究。具体研究内容包括:结合人体行为的特点,改进卷积神经网络结构,探索几种适合人体行为描述的特征提取网络结构;针对骨骼人体、第一视角交互视频和人人交互行为的识别展开研究; 研究长视频中的行为动作时序定位方法,围绕动作提议生成方法、一步式(one-stage)行为检测模型和行为的时序演化模型等多个方面展开研究。研究成果包括:提出了一种双向特征金字塔模型,结合锚机制,实现了一个一步式视频行为检测框架,在公共数据集上将检测精度在现有水平上提高了8个百分点(IoU=0.5);提出了一种全局和局部双分支融合的深度神经网络架构,用以识别第一视角视频中的人体行为,在公共数据集上将现有方法的识别精度提高了近4个百分点;在此架构的基础上,我们又加入了了交叉特征融合策略,将识别精度又提升了8个百分点,在JPL数据集上达到100%的识别准确率;提出了一种对动作及其上下文时序结构的建模方法,同时引入深度多示例学习网络模型进行视频动作检测,在公共数据集上将现有方法的检测精度提高了3.5个百分点(IoU=0.5);针对二阶段的行为检测,还提出了一种基于稀疏编码的动作提议生成方法,在公共数据集上将召回率提高了25%(IoU=0.5)。本课题的研究成果对推动视频人体行为理解技术的发展具有积极作用,能够为智能监控系统和人机交互技术提供核心算法。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于LASSO-SVMR模型城市生活需水量的预测
低轨卫星通信信道分配策略
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
视频中的三维人体姿态估计与行为识别
智能视频监控中基于多模态融合的人体行为识别研究
视频侦查中基于深度学习的人体行为识别技术研究
自然场景视频人体行为识别特征析取关键问题研究