Video event understanding referred to an advanced video processing in which unlabeled video sequences are used to extract semantics units that are able to describe saliency area in video scene, and time-domain, spatial-domain and logic analysis of these semantics units are used to recognize event of interest existing in Video. It is a high level science problem in computer vision research. Meanwhile, it is a hot spot of this research area. It has wide application prospect in both civil and military fields. However, due to shortage that existing video representation method can not exactly express region of real visual interest in video image, it is difficult to video event understanding algorithm now available to get good performance. In this project, we try to develop a new advanced video semantics inspired video event understanding method through introducing eye tracking technique. Firstly, we use eye tracking system to acquire eye gaze data. Secondly, we use these gaze data to improve visual attention model. Then features that are corresponding to human perception and thinking are extracted by utilizing this visual attention mode. Further, visual semantics words are generated. Based on these visual semantics words, we build video event model. At last, according to video event model, video event understanding is fulfilled. Thereby, we can deduce a new advanced visual semantics based video event understanding method.
视频事件理解指通过分析视频序列,提炼出能够描述视频场景显著内容的语义单元,通过对这些语义单元进行时域、空域及逻辑解析,理解视频中存在感兴趣事件的方法。是计算机视觉研究的高级科学问题之一,也是当前该领域研究的热点,在民用与军事领域,具有广泛的应用前景。不过,由于现有视频描述方法难以准确表达视频图像中真实的视觉感兴趣区域,导致现有视频事件理解技术难以取得良好的效果。本项目拟通过引入眼动跟踪技术,发展出一种新的先进的视觉语义启发的视频事件理解技术。利用眼动跟踪系统,获取人眼注视点运动数据,用这些数据,构建数字眼动模型。再利用数字眼动模型,完善视觉注意力模型。利用视觉注意力模型,提取出图像中最感兴趣的区域,即符合人类感知与思维习惯的特征,以生成视觉语义单词,基于这些视觉单词,建立基于视觉语义单词的视频事件模型,在此模型基础上,完成视频事件理解,从而发展出一种先进的基于视觉语义的视频事件理解新方法。
视频事件理解是计算机视觉研究的高级科学问题之一,是当前该领域的研究热点。本项目通过将眼动跟踪技术引入到视频事件理解中,发展出了一种新的、先进的基于视觉语义的视频事件理解技术。项目首先建立了自主版权的人在自由观看视频状态下的眼动数据库,基于该数据库、并基于支持矢量机模型,提出并实现了一种数字视觉注意力模型构建框架,突破了支持向量机特征样本同真实眼动数据之间关系确定以及通过求解支持矢量机权值分布得到序列图像显著图等关键技术,该模型可更为真实地模拟人在自由观看视频状态下的视觉注意力,并很好地检测出感兴趣的目标;提出并实现了一种基于视觉注意力的视觉词典构建方法。首先确定序列图像上的仿射不变区域,然后基于本项目构建的可计算视觉注意力模型确定这些区域的显著性,选择那些显著的,人所关注的区域,抛弃那些无人关注的区域,并通过向量量化得到视觉单词词典。在该视觉词典的基础上,分别利用朴素贝叶斯分类器和支持向量机实现物体类别的识别。该方法客服了传统视觉词典构建时,因需求尽可能多的信息而导致的运算量过大的问题。利用本项目的基于视觉注意力的视觉词典,可以明显提升物体类别识别的准确率;提出并实现了一种基于视觉注意力的词袋模型序列图像表示方法。利用可计算注意力模型计算出序列图像的显著图。根据得到的显著图对序列图像中出现的视觉单词分配权值,用此加权过的视觉单词来表示序列图像。该方法解决了传统的基于词袋模型的图像表示对整幅图像上的所有区域进行一视同仁的处理,不能区分目标和背景,从而导致效果不佳的问题。在这种基于视觉注意力的词袋模型图像表示方式的基础上,分别利用k均值算法和潜在概率语义分析模型实现了视频目标发现。该方法显著提升了目标发现的能力;提出并实现了一种基于视觉感知的视频理解方法。利用基于视觉注意力的词袋模型序列图像表示方法发现序列图像中的感兴趣目标。在视频事件表达与识别阶段利用支持训练机,针对不同的任务需求进行训练。该方法可克服传统视频理解方法因难以提取人类所关注的高级目标特征而无法模拟特定事件理解的固有缺点。研究成果表明,本项目提出的视觉语义启发的视频事件理解技术是可行的,对于计算机视觉基础理论及应用研究,意义重大。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
基于SSVEP 直接脑控机器人方向和速度研究
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
有限语义标注的视频场景自动理解技术研究
协同深度视频理解、描述和视觉问答的关键技术研究
协同视觉语义理解和社会媒体分析的关键技术研究
视觉语义的Web统计模型及理解深化