The rapid development of Internet has brought the video data explosion. So, it becomes a challenge to automatically understand and manage the big video data. Deep learning, as a recent breakthrough in artificial intelligence, has been successfully applied to video understanding. While deep learning shows superior performance, there are still two problems prevent its development in the field of video understanding. On the one hand, video is a structured data which needs a structured learning framework. On the other hand, human labels still play a key role in the popular deep learning frameworks. This is in a sense anathema to the very nature of large-scale web or real-world data—namely, big video data is largely data with no labels or noisy labels. In this proposal, with the summarization of previous approaches, we believe it is a good solution by introducing Multi-Instance Learning(MIL) to deep learning and proposing a new deep MIL framework for video understanding. The research content includes: (1) designing the new deep MIL framework. (2) fusing multi-modal features and multi-label relations to get context sematic of videos in the framework of deep MIL. (3)automatic video labeling with web text in the framework of deep MIL. (4) introducing deep MIL based video understanding to web video content security analysis and designing a demo of objectionable video filtering system. Our final objective is to design a full set of video understanding framework based on deep MIL to implement video classification, automatic labeling and event recognition based on learning deep video representations with weak supervision.
深度学习在大数据下的优良性能使其成为了视频理解领域新的研究热点。然而其仍有两方面问题尚未研究完善。一方面,视频是一种结构数据,需要结构化的框架;另一方面,网络中的视频数据大多无标签或标签不足,亟需一种弱监督的模型。为了同时解决这两个问题,本项目拟将多示例学习和深度学习两者结合,提出一种新的基于深度多示例学习的视频理解框架并应用到网络视频内容安全分析中。本项目的研究内容包括:(1)设计基于深度多示例学习的视频分类模型,建立项目的基础框架。(2)在深度多示例学习框架下研究如何进行视频的多模态特征融合和多标签融合。(3)研究一种基于网络文本的视频自动标注方法。(4)基于深度多示例学习的视频理解展开视频内容安全分析研究,并设计应用演示系统实现对敏感内容的识别和过滤。项目研究目标是提出一套新的视频理解研究框架,实现弱监督下的视频自动分类,标注和事件检测,净化互联网环境,用技术服务社会。
深度学习在大数据下的优良性能使其成为了视频理解领域新的研究热点。然而其仍有两方面问题尚未研究完善。一方面,视频是一种结构数据,需要结构化的框架;另一方面,数据大多无标签或标签不足,亟需一种弱监督的模型。为了同时解决这两个问题,本项目将多示例学习和深度学习两者结合,研究基于深度多示例学习的视频理解弱监督框架并应用到网络视频内容安全分析中。本项目的主要研究内容为基于深度多示例学习的弱监督视频分类模型,该模型基于Noisy OR模型,将基本的CNN网络改进为多示例结构,设计了一种端到端的多示例学习网络,并在该网络中进行了初始的多模态融合尝试。通过在视频分类数据集的实验验证,该方法具有较好的性能,尤其在暴力和恐怖等敏感视频检测数据集上取得了优于其他检测方法的结果,说明多示例结构可以更好的建模内容对比较大的视频结构。对此,项目进一步探索多示例在异常事件检测中的应用,发现其也具有较突出的性能,并且多示例框架已成为目前该类检测的主流方法。其次,项目在示例挑选和多模态融合方面探索了提升视频理解性能的方法,并在模型压缩和多形态输入等模型优化问题上做了部分研究;第三,研究了基于弱监督的目标定位和标注方法;最后,项目开展了视频内容安全分析的相关研究,并结合敏感内容检测的相关工作,开发了演示平台,并将在后期不断完善和增加视频内容理解功能,提升项目的实际应用能力。在项目的整个研究过程中,多示例学习已经开始逐渐被应用到了视频理解的各个领域,并成为了弱监督视频理解技术的主流方法之一。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
基于非线性接触刚度的铰接/锁紧结构动力学建模方法
基于场景语意理解和深度学习特征表述的视频行为分析研究
基于最大间隔的多示例学习算法设计与分析
基于深度和多示例学习的m6A-seq数据分析质量提升算法研究
面向视频社交网站的视频内容理解与挖掘研究