Insufficient intelligence of detecting violent videos is affecting the purification of network environment. It is significant to extract and fuse audio-visual features effectively. ..Existing algorithms are inadequate for extracting audio-visual features with effective descriptions of violent scenes and measuring audio-visual semantic meaning correspondence. Based on our research basis of detecting video scenes, this project explores the corresponding theoretical model and technical methods: the research goal is to build a theoretical mode of detecting the violent videos based on audio-visual features fusion. The basic work is to extract audio-visual semantic features to describe the violent scenes well. Learning a latent subspace to fuse audio and visual features with preserving audio-visual semantic meaning is regarded as a necessary research. It is significant to jointly learning audio-visual semantic meaning correspondence and video classification using audio-visual features. The key technologies and solutions are analyzed. An efficient and intelligent violence video detection system is built and tested on the related public dataset in order to evaluate the proposed methods. ..This project will have practical significance for promoting basic research of detecting violent videos, speeding up its application and improve the intelligence of network content surveillance.
暴力视频检测智能化水平制约了网络环境的净化,如何提取并有效融合音视频特征是暴力视频检测技术中亟待解决的关键问题。. 针对现有暴力音视频特征对暴力场景语义描述能力不足、融合音视频特征时未考虑语义一致性等问题,本项目在前期工作的基础上探索了相应的理论模型和技术方法:将构建基于音视频特征融合的暴力视频检测理论模型为最终的研究目标,把提取具有暴力场景语义描述能力的暴力音视频特征作为研究的基本内容,以建立具有音视频特征语义信息保持的特征子空间作为研究切入点,将基于音视频特征的语义一致性度量和暴力视频检测的多任务学习作为研究重点,深入分析其中的关键技术和解决方案,最终搭建高效智能的暴力视频检测系统,并在公开库上对上述理论方法进行测试验证。 . 本项目预期研究成果将对推进暴力音视频融合领域的基础理论研究及其实用化、提升暴力视频检测智能化水平具有实际意义。
暴力视频传播已经成为互联网环境治理面临的隐患之一,暴力视频智能识别技术对网络内容安全具有重要意义。然而,常见的暴力视频多模态特征拼接融合简单粗暴,并未充分考虑模态间的互补和干扰;且暴力视频数据集规模通常较小,导致模型易受噪声干扰产生过拟合现象,暴力视频判断性能亟待进一步提升。.针对这些问题,本项目研究了以下三方面的内容:(1)多模态特征提取。针对暴力视频特点,提出了一种适配暴力场景的表观、运动和音频三种典型暴力特征的方法。(2)多模态特征融合。设计了一种自适应语义关联的暴力多模态残差网络,简称为VMRN(Violent Multimodal Residual Network)。该模块由共享空间映射与多模态特征交互两部分组成,在对多模态特征进行充分交互的同时,又能够有效抑制不同模态信息之间的干扰。(3)语义嵌入学习。设计了视音频语义相似性度量和语义对应性分类两种辅助任务,提出了一种基于语义嵌入的暴力视频识别多任务学习方法,增强了模型的泛化能力,减少了数据噪声对模型产生的干扰。此外,我们嵌入了由大型语料库Google News获取的外部暴力元素共现知识,修正暴力视频特征描述和分数以提升了暴力视频分类的性能。最后,提出的模型结果在MediaEval VSD、RWF2000、Crowd Violence和自建暴力视频数据集等多个数据集验证了有效性。.通过三年的项目研究,我们深入研究了暴力视频检测的关键技术和解决方案,发表了学术论文8篇(其中SCI论文2篇,EI期刊论文1篇,EI会议5篇),申请发明专利3项,研发暴力视频识别计算机软件系统1套,获批软件著作权1项,项目成果在媒体融合与传播国家重点实验室进行了宣传展示。.本项目的研究对推进暴力视频识别的理论论研究及其实用化、提升暴力视频检测智能化水平具有实际意义。同时,本项目探索的多模态特征融合和融合外部语义嵌入的多任务暴力视频识别方法对视频理解领域的研究也将有着一定的借鉴意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于全模式全聚焦方法的裂纹超声成像定量检测
水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
基于多任务学习的跨视角智能视频分析方法研究
基于多任务稀疏学习的视频行为理解
基于多任务稀疏特征学习的海量图像理解方法研究
智能环境下基于音视频特征融合的多说话人跟踪研究