视频的中层视觉表达和高层行为识别研究

基本信息
批准号:61303168
项目类别:青年科学基金项目
资助金额:28.00
负责人:韩志
学科分类:
依托单位:中国科学院沈阳自动化研究所
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:李文涛,范慧杰,李冰锋,何思远,陈希爱,郑姗
关键词:
事件表达视频建模行为识别特征学习计算机视觉
结项摘要

Vision feature learning, video representation modeling and action recognition/detection are the most important issues in the research fields of low-level, middle-level and high-level vision respectively. The previous researches generally solved particular problem in certain level with strong pertinence, however, disconnected with problems in other levels. Therefore, these methods are hardly integrated under a unified video representation framework. Aiming at solving this issue, this project application takes refining middle-level vision representation as the core destination, studies a comprehensive, effective low-level primitive dictionary and component tracking method based on human vision system mechanism, such as Gestalt principle. Given the middle-level vision representation and features in interrelated spatial and temporal tunnels, the middle-level representation can be applied to video coding, compression and synthesis, and with further study on the connection with high-level vision characteristic, it learns a middle-level based action template and proposes an effective action recognition algorithm. Therefore, it gives a brand new, highly compatible multi-level video representation system. The innovation of this project is that, from a more macroscopic aspect of human vision system simulation, it unifies the research system for the series of issues of video processing and understanding, which may provide significant theroretical and applicative value for future computer vision integration.

视觉特征学习、视频表达建模与动作检测识别分别属于计算机视觉研究中底层、中层和高层视觉领域的重要研究课题。目前的研究往往对于不同层面的特定问题提出具有针对性的处理手段,却和其他层面问题脱节,很难统一在一个完整的视频表达体系下。针对该问题,本项目申请旨在以完善视频的中层视觉表达为中心,借鉴格式塔原理等人类视觉系统工作机制,学习完整、有效的底层基元表达字典和部件跟踪方法,在空间和时间两条通道上给出相互关联的中层视觉表达形式与特征。该中层表达不仅能够应用于视频的压缩编码和重建合成,而且通过进一步研究中层表达与高层视觉任务的联系,学习基于中层表达的动作表达模板,并提出高效的动作行为识别算法,从而给出一个全新的、具有高兼容性的多层面视频表达系统。本项目申请的创新性在于从宏观的拟人类视觉系统的角度出发,统一视频处理与理解等问题的理论方法和框架,对于机器视觉系统的统一与集成具有重要的理论意义和应用价值。

项目摘要

图像/视频表达建模是计算机视觉领域最为本质重要的研究问题之一。本项目以完善视频的中层视觉表达为中心,借鉴格式塔原理等人类视觉系统工作机制,学习完整、有效的底层基元表达字典和部件跟踪方法,在空间和时间两条通道上给出相互关联的中层视觉表达形式与特征,并给出其在高层视觉应用中的进一步研究思路。在研究中,通过将格式塔原理推广到时间维度,提出了主动轨迹模型,该模型具有时空多层级结构,并在此基础上构建了时空评分体系,由此遴选出最具信息表达能力的运动曲线集合,从而给出一个视频的稀疏表达,该模型能够应用于视频关键信息重构、遮挡结构跟踪、运动物体识别聚类以及动作模板表达等任务;进一步改进了名为视频基本草图的中层视觉表达模型,该模型对视频中的元素进行有序的分解并对不同类型的视觉元素分别建模,而后统一在同一个统计模型表达框架下,通过心理学实验验证了该模型与生物视觉系统的响应具有一致性,并能够有效应用于运动模板表达等高层视觉任务;提出基于本征光照的新的颜色空间用于图像表达,该表达将图像中的本征信息和光照信息进行有效分离,分别用不同的颜色通道表示,与光照相关的处理能够通过直接在光照通道上进行操作而获得,如阴影去除检测、重光照生成等,而通过将本征通道信息直接应用于传统高层视觉任务将提高算法效率与鲁棒性;另外,在低秩矩阵/张量分解表达与噪声建模方面做了一系列的研究,挖掘图像/视频表达中的本质低秩信息,从而得到噪声去除、图像恢复、图像对准、前背景分离等处理效果,为后续的图像/视频处理提供更干净易用的原始数据。本项目研究的创新处在于从宏观的拟人类视觉系统和物理成像系统的角度出发,针对不同的视觉现象和多种处理需求,给出合适的图像/视频表达方法手段,并统一图像/视频处理与理解等问题的理论方法和框架,对于机器视觉系统的统一与集成具有重要的理论意义和应用价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

韩志的其他基金

相似国自然基金

1

模拟视觉信息处理机制的视频对象行为识别

批准号:60972158
批准年份:2009
负责人:刘海华
学科分类:F0116
资助金额:33.00
项目类别:面上项目
2

基于视频的行人检测和行为识别研究

批准号:61271288
批准年份:2012
负责人:马争
学科分类:F0116
资助金额:88.00
项目类别:面上项目
3

基于视觉感知机理的林火视频识别模型研究

批准号:31200496
批准年份:2012
负责人:赵亚琴
学科分类:C1609
资助金额:22.00
项目类别:青年科学基金项目
4

基于视觉认知方法的视频目标分类与识别研究

批准号:60875021
批准年份:2008
负责人:黄凯奇
学科分类:F0604
资助金额:33.00
项目类别:面上项目