Continuous action recognition in real video scene is more challenging than traditional isolated action recognition. This project researches on mixed labeled samples oriented continuous action recognition under the background of big data. Studying the method of automatically learning action time-space feature based on deep network, to learn features more adapt to specific application in a data-driven way. Studying time sequence modeling method for continuous action based on probabilistic graphical model, to establish a mathematic model describing the dynamic process within each action and transitions between actions. Studying the construction and learning methods of integrating model. Establishing the integrating model combining deep network and probabilistic graphic model. The integrating model learns from mixed labeled samples in end-to-end fashion, fusing the time sequence information of action modeling to feature learning and achieving action feature learning and continuous action recognition in a unified way. This project will face real application environment, conduct theoretical analysis and design key algorithms to improve recognition accuracy rate and promote the practical application of action recognition and analysis.
实际视频场景中的连续行为识别较传统的单个行为识别更加具有挑战,本项目研究大数据背景下面向混合标记样本的连续行为识别技术。研究基于深度网络的行为时空特征自动学习方法,以数据驱动的方式学习更适应特定应用的特征。研究基于概率图模型的连续行为时序建模方法,以建立描述行为内动态过程以及行为间相互转移关系的数学模型。研究混合标记样本下集成模型的构建和学习方法,建立深度网络和概率图模型相结合的集成模型,以“端到端”的方式对混合标记样本进行学习,将行为建模的时序信息融入特征学习中,实现行为特征学习和连续行为识别的统一。本项目将面向实际应用环境,建立理论框架,设计关键算法,提高识别准确率,推动行为识别与分析技术的实用化。
视频中的人体行为识别是计算机视觉的重要研究内容,在视频监控、视频检索、人机交互等领域有着广泛应用。与传统的人体单个动作识别相比,人体连续动作识别更加具有实际应用价值,也面临更大的挑战。它不仅需要应对动作的多样性和场景的复杂性,还要同时完成分割和识别两个任务。本项目研究面向混合标记样本的连续行为识别技术。首先,研究基于深度网络的行为时空特征自动学习方法,设计和构造了一种提取视频中运动信息的三维CNN网络,该网络通过三维卷积核在空间域和时间域提取三维时空特征。将原始像素、梯度和光流等多个通道数据输入三维CNN网络,既区分对待了空间维和时间维的信息,又加入了关于特征的先验知识。然后,研究基于概率图模型的连续行为时序建模方法,提出了一种基于CNN-LDCRF的连续动作识别方法,采用LDCRF对连续动作进行时序建模,LDCRF模型能够同时学习出动作内动作原子之间的动态转移关系和动作间的动态转移关系,在统一框架下集成CNN和LDCRF,构成了无缝连接的深度网络。最后,研究混合标记样本下集成模型的构建和学习方法,针对包含了动作的标签和位置信息的强标记样本,以“端到端”的方式同时优化CNN网络和LDCRF模型的参数,针对只包含动作的标签信息的弱标记样本,提出了一种弱标记样本条件下CNN-LDCRF模型的端到端训练方法,引入ECTC层通过动态规划方法有效评估输入视频和标签序列间所有的对应情况,从而实现混合标记样本条件下CNN-LDCRF模型的训练学习。实验结果表明CNN特征优于传统人工构造特征,并且CNN-LDCRF模型取得了更好的连续动作识别效果。此外,该模型在弱标记样本下也能够以“端到端”的方式得到有效训练,并且也取得了较为满意的连续动作识别效果。本项目的研究成果可以应用到公共场所的危险行为预警、视频检索中的行为标注和检索以及人机交互中的控制动作识别中。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
面向正样本和未标记样本学习的算法研究及其应用
面向连续语音的哈萨克语关键词识别技术研究
面向静态图像行为识别的混合特征学习方法研究
基于零样本学习的人体行为识别研究