The semantic understanding and description of events from videos has become a promising research topic in computer vision and artificial intelligence. Many state-of-the-art approaches mainly focus on the relative simple events with short continuing time and simple movements, and regard the estimated event class label as the single semantic description. And very few works are done on the analysis and description of long-time complex events with many complex motions and actions. With the aim of inferring the "what of event, which and when of sub-events, which and where actions” of semantic descriptions of events, this project proposes a novel framework for analyzing events which combines hierarchical computational levels such as high-level complex events, middle-level sub-events, and low-level refined actions. Under this framework, we first exploit the extraction of multi-scale video features which describe the appearance and motion information of events from different levels. Then we focus on building and learning the models of content analysis and semantic inferring which infers the semantics of events in each level. Additionally, we will investigate the models of information transferring and semantic interactions between different levels, which combine semantic descriptions of all levels to generate the final hierarchical semantic description of events. This project is significantly important for boosting the theoretical developments and widening the practical applications of event analysis and description.
视频中事件的内容分析与语义描述是计算机视觉与人工智能研究的前瞻性方向。传统方法主要关注于持续时间短、变化少的简单事件,以预测事件类别为单一语义描述,较少考虑持续时间长、内容变化多的复杂事件,缺乏在多个不同层次上对事件内容进行理解描述的理论分析与计算框架,及相应的模式表达和模型推理算法。本项目突破传统方法的局限性,以获取“发生了什么事件,经历了哪几个阶段,每个阶段发生了哪些行为,发生在哪里,如何发生”自然丰富的语义描述为目标,构建在“宏观事件”、“微观子事件”、“精细动作”多层进行事件内容分析的计算框架;探索在该框架下多尺度视频特征的提取与表示,从不同粒度对事件的表观和运动信息进行表征;研究各层内容分析与语义推理模型,生成各层事件的语义描述;研究不同层间的信息传递与语义交互模型,将各层语义优化组织,形成层次化的语义描述。本项目对推动事件分析与语义描述的理论发展及扩展其应用具有重要意义。
视频中事件的语义理解与描述,是指计算机具备像人类一样能感知外部环境的能力,能自动对场景中发生的事件进行分析理解,得到周围环境中“发生了什么事件”、“事件经历了哪几个阶段”、“每阶段发生了哪些行为、发生在哪里、如何发生”的语义描述,从而帮助或辅助人类完成许多重要的任务,例如智能视频检索、智能视频监控、高级人机交互、智能环境构建等。目前的研究大多针对持续时间短、运动变化少的简单事件,对持续时间长、内容变化多、具有实际意义的复杂事件研究较少。同时,很多研究仅以获取具体的事件类别标签为单一的语义输出,缺乏对复杂的事件内容进行类似于人类表达方式、抽象丰富的语义描述。针对目前研究的不足,本项目面向真实景中持续时间较长、内容变化较多的复杂行为,研究在多个不同层次上对事件内容进行分析理解与语义描述的理论分析与计算框架,以及相应的模式表达和模型推理算法。. 本项目的主要研究成果如下:.(1)提出了深度特征无监督学习方法,联合聚类和深度学习得到具有判别力的视频中层表示,用于多标签事件识别和事件检测等任务。.(2)提出了利用图像域标注数据进行视频域事件识别的深度模型迁移学习方法,实现了图像域学习的事件识别模型适应到视频域的迁移过程。.(3)提出了动作模式树(action pattern tree)时序建模方法,用于无约束长视频中的时序事件定位与识别。.(4)设计了基于时域注意力的深度网络,来动态的学习视频片段的权重,解决长视频中的时序事件定位与识别问题。.(5)设计了能够自我预测微调的深度网络模型对视频中发生的事件进行预测。该模型不断更新事件预测结果的置信度。.(6)提出了联合句法分析和视觉线索翻译的视频事件描述方法,同时学习描述语句的句法结构、以及视频特征到语义类别标签的混合模型映射关系。.(7)提出了利用常识引导推断语义关系的视频事件描述方法,该方法联合关系与常识推理,不依赖任何物体或关系检测器,并且在训练时也不需要场景图的标注。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
货币政策与汇率制度对国际收支的影响研究
视频中事件的内容分析与语义描述
WGOS层次化语义系统模型研究
基于本体的视频语义内容分析方法研究
面向大数据的媒体内容分析与关联语义挖掘研究