View-dependent videos for one same action are quite visually different at multi-sacle changes and view-point variations, which are crucial factors for action recognitions. Calculations of multiscale features from video images are usually based on finer scale pyramid strategy, which is to figure out low-level features respectively at each scale leavel. This scheme is of redundent information but worse of reatime, which becomes urgent bottleneck in applications. A new fast scale pyramid strategy based on feature forecast algorithm is proposed, which can speed up low-level feature calculations and solve real-time problem fundamentally. Secondly to overcome action recognition inaccuracy problem caused by view-point variations, Recurrence Plot method primarily for none linear dynamics system is adopted to construct phase space image, which is equivalent as system original phase space and can be exploited to mine recurrent similarities from view dependent videos alone its diagonal, where chaotic recurrent texture features are well developed. Traditional clustering method cannot solve none convex-distributed data sets, further more its number of clustering types have to be pre-decided that will destroy data original structure, a muti-agent evolutionary clustering algorithm is proposed which is sensitive to data distribution shape, so that the true action pattern structure can be explicitly discovered from the above various view-dependent video recurrent features. Finally one action model can be established based on bag of words. This study provides a theoretical basis for the practical application of action analysis and recognition in computer vision.
不同视图的同类行为对象具有尺度变化和视角各异的鲜明区别,是影响行为识别的关键因素。视频中的多尺度特征计算,通常采用精细的尺度金字塔分层策略分别计算每层的底层特征。但该方案提取的信息冗余而实时性不足,已成为实际应用亟待解决的瓶颈。本课题首先提出基于特征预测算法的金字塔分层策略,加速多尺度特征的计算,从根本上解决实时性不足问题。其次针对同类行为不同视角带来的行为识别精度问题,拟采用非线性动力学系统的递归图分析方法,通过建立与系统原相空间等价的相空间递归图,根据递归图对角线方向具有发育较好的混动递归线条纹理的属性,挖掘其递归相似性。然后针对传统聚类方法中须预置类别个数以及不能有效聚类非凸集数据集合等缺点,拟采用基于流形相似度计算的多智能体进化聚类算法,对挖掘出的行为递归相似性数据集进行结构性分析。最后,基于关键词词袋策略建立同类行为模型。本研究为计算机视觉中行为分析和识别的实际应用提供理论依据。
该项目主要针对行为识别中的两个关键问题研究,即多尺度时空特征的快速计算以及角度无关性识别。针对第一个问题,传统算法是采用精细的尺度金字塔分层策略分别计算每层的底层特征,但该方案提取的信息冗余而实时性不足,本项目提出基于预测的多尺度时空特征计算方法。首先,根据 Dollár 等人研究出的不同尺度之间的底层特征存在一个指数系数关系原理,通过实验统计计算出 DoH 特征的指数系数值;然后,通过时间尺度之间的递归性与二维 DoH 特征的尺度关系式,进一步推导出在三维空间中时空特征点的预测表达式,减少了金字塔的分层计算;通过与传统算法对比,在保证具有 80%以上准确性的条件下,随着时空尺度分层的不断增加运算时间的减低优势更加明显。.针对角度无关性识别展开了三种研究方法,第一种研究方案是利用时空特征点为底层特征,以递归图分析法挖掘不同视角间的共性来建立描述符,实现视角无关行识别,其实验结果是基于IXMAS数据库中的走路、坐下、踢腿三个动作的不同视角下的35段视频下完成的,识别率均在80%以上。第二种方法是基于骨架数据利用注意力模型实现的,该模型由特定视角子网和公共子网串联组成,首先通过特定视角子网学习每个视角序列的判别性特征, 同时利用空域注意力和时域注意力模块分别重点关注关键关节点和关键帧; 然后特定视角子网的输出特征作为公共子网的输入, 通过公共子网进一步学习角度无关性特征; 最后输出行为分类结果。 该模型在目前最大的骨架数据集 NTU 数据集上识别准确率为 76.3%。第三种方法是基于IXMAS和WVU数据集上的深度学习网络下的研究,该算法的特点是对CNN和LSTM得到的特征集利用K-SVD进行稀疏表示,得到每个行为在不同视角下潜藏在的共同特征。将得到的共同特征作为该行为的描述符,送入Softmax分类器进行分类识别;该算法在IXMAS和WVU数据集中的平均识别率分别为89.22%和91.4%。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
监管的非对称性、盈余管理模式选择与证监会执法效率?
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
日本血吸虫感染肝肉芽肿中lncRNA AK165053对巨噬细胞ROR alpha通路的调控机制研究
视角无关的动作识别与行为建模方法研究
基于三维骨架序列的视角无关人体行为识别方法研究
基于多视角和多模态潜在关联挖掘的人体动作识别算法研究
基于多视角特征相关性挖掘的大规模异构媒体融合标注方法研究