In this project, we explore the actor and motion based attention for action localization in untrimmed videos, in a weakly-supervised manner. Under the condition of weakly-supervision, training examples are just provided with video-level label but without bounding boxes, start and end frame. To achieve this goal, we propose to apply spatiotemporal deconvolution to extract temporal information, which can be prepared for action dense prediction. Then we propose to apply actor and motion supervised attention to guide the model learning. By this means, it can help the network can focus on the target area more quickly and accurately. The we apply grad based class activation map (Grad-CAM) to calculate action localization map, from which we can localize the action in spatial domain. Then we design a sparse loss function to selection the segments for action temporal detection. By this means, we can apply some public datasets which are just given action labels to detect some specific actions, such as violence, aggravate damage. We can also detect some bad behavior such as pornography in live web and videos, and further provide health security in network environments.
本项目拟针对视频中特定行为的检测与识别问题,研究基于人体和运动注意的弱监督方法。在弱监督条件下,训练样本中只给出视频级别的类别标记而缺乏检测框、行为的起始和截至时间等标注信息。首先,我们提出使用时空反卷积网络来提取行为的时序信息,为行为的密预测奠定基础;其次在网络训练中,提出基于人体和运动注意的方法来指导网络的学习,使得网络能更加快速准确地将注意力集中在目标区域;然后使用基于梯度的类别激活图方法计算出行为在空间上的概率分布图,从而得到行为的空间位置;最后,针对行为的时序检测问题,提出增加稀疏约束的方式来有效选择具有目标行为的片段。项目将为安防监控视频、直播平台与网络平台视频中暴力、色情等特定行为的检测识别提供技术支撑,促进社会的安全和谐和网络环境的净化。
视频中行为的时空检测识别是指在视频中识别出特定的行为,并定位其时间和空间位置信息,包括行为的起始帧、截止帧和检测框等。这是当前计算机视觉中一个重要而活跃的研究热点,它不但在社会安全领域有着广泛应用,比如监控环境下的异常行为检测、商场中的偷窃行为检测识别,还在人机交互中有着不可取代的地位。本项目的主要研究内容包括基于时空卷积网络的弱监督行为空间定位的研究,行为检测识别中人体和运动注意机制研究以及弱监督的行为时序检测算法研究。其中,第一项研究内容通过多阶段的方法获得了媲美有监督的性能提升。在第二项研究内容中,将有效运动作为监督信息加入模型的学习中,检测算法的定位性能获得显著提升。在第三项研究内容中,通过弱监督的框架下对行为进行稀疏建模,有效提升了时空定位的准确率,实现了先进的检测性能。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于全模式全聚焦方法的裂纹超声成像定量检测
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
基于图卷积网络的归纳式微博谣言检测新方法
动物响应亚磁场的生化和分子机制
人工智能技术在矿工不安全行为识别中的融合应用
注意选择引导的人体运动分析和识别
基于弱监督深度学习的自由视点运动目标检测研究
基于关键运动元检测的连续人体动作识别
基于深度时空轨迹特征的复杂场景人体行为识别