第一人称视觉下的视觉事件理解

基本信息
批准号:61871326
项目类别:面上项目
资助金额:62.00
负责人:赵歆波
学科分类:
依托单位:西北工业大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:邹晓春,尹翰林,崔恒飞,关辽原,李娜,彭明地,马宝元,任鑫伟,夏瑜
关键词:
视觉选择性视觉感知第一人称视觉事件理解视觉注意机制
结项摘要

First person vision (FPV) is becoming a research hotspot in Computer Vision and Pattern Recognition (CVPR) recently. The reason of this is, only based on FPV, vision information that corresponding to human cognitive neural mechanism can be acquired correctly. In this project, an innovation method of vision event understanding based on FPV is proposed. We suggest that acquire user vision information based on FPV instead of the third person vision so that we can introduce visual attention in vision information processing perfectly. Fusing deep learning based and appearance based eye tracking method, a new eye tracking method that suitable for FPV is presented in order to break the inherent bottleneck of traditional eye tracking method based on pupil corneal reflection. That is frequent calibration and active illumination failure when facing FPV. A new representation of the behavior, intent, and environment of a person (we call here vision event) based on visual attention is explored. Then, vision event understanding based on FPV is fulfilled. It is expected to settle the difficulties of the pattern of information processing based on current three person vision, i.e. mass data processing with deep learning and thoroughly solve semantic understanding problem which is the basic scientific problem in CVPR.

第一人称视觉由于可以获取符合人类认知神经机制的视觉信息,正在成为计算机视觉和模式识别领域新的研究热点。本课题提出一种第一人称视觉下的视觉事件理解创新方法。提出用第一人称视觉代替第三人称视觉获取用户视觉信息,来达到将视觉注意力机制完美引入视觉信息处理中的目的。融合基于深度学习和基于外观的眼动跟踪实现机理,提出一种新的适合于第一人称视觉的眼动跟踪新方法,以期突破传统基于瞳孔角膜反射的眼动跟踪方法在第一人称视觉下频繁标定和主动照明方案失效等固有难题。探索基于视觉注意力的人的行为、意图和情境(本文称为视觉事件)描述新方式,实现第一人称视觉下的视觉事件理解。该方法有望突破传统第三人称视觉下海量信息深度学习处理模式的发展瓶颈,从根本上解决语义理解这一计算机视觉与模式识别领域基础科学问题。

项目摘要

第一人称视觉由于可以获取符合人类认知神经机制的视觉信息,正在成为计算机视觉和模式识别领域新的研究热点。本课题提出一种第一人称视觉下的视觉事件理解创新方法。项目首先提出了一种面向人类视觉机理的第一人称视觉数据建模方法,建立了可见光人眼图像数据集—IrisBase、单目数据集—MONO、多姿态双目数据集—BINO、数据集采集系统DataCap、笔记本电脑注视数据集—GazeDataset_PC。基于上述数据库,提出了一种基于第一人称视觉的对象采集与轮廓检测方法。设计了一种三维到二维的映射模型并改进了基于单点的视场标定算法,该算法能在短时间内收集到几百对标定数据并剔除异常值。提出了一种基于边缘特征的对象轮廓检测算法,大大提高了第一人称视觉采集设备的易用性且降低了制作成本。提出了一种双层嵌套NUS-Net,用于实现显著目标检测任务,该网络可以从粗到细地提取和集成多尺度、多层次特征,实现了精度和速度之间的平衡。提出了一种基于深度学习的YOLOv5-Cr模型用于实现目标检测任务,mAP@.5达到0.918。提出了一种基于深度学习的CrNet显著性检测网络用于生成目标掩码,既可直接进行目标分割,也可以作为一种半自动化标签生成模型用于后续提高数据标注效率。提出了一种视觉注意力模型构建方法,消除或减轻摄像头运动的影响,结合压缩激活融合方法进行特征深度融合,并利用长短时记忆网络编码帧间长时动态信息。提出了一种基于前景运动特性的注意力模型,利用前景检测与速度识别,实现注意力时间分配,并构建像素、分布、显著性和感知评价系统。提出了一种基于视觉注意力的局部-全局结构视频描述方法。将2D特征和3D特征经过门控融合机制编码网络得到视频的全局特征,并引导显著特征生成视频的局部特征。设计基于注意力机制的双层LSTM解码网络将局部-全局特征高效地结合以获取自然描述语句。视觉重要性概念的引入可以有效提高视频描述语句的准确性、多样性。研究成果表明,本项目提出的第一人称视觉下的视觉事件理解技术是可行的,对于机器学习基础理论及应用研究,意义重大。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
2

农超对接模式中利益分配问题研究

农超对接模式中利益分配问题研究

DOI:10.16517/j.cnki.cn12-1034/f.2015.03.030
发表时间:2015
3

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
4

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

赵歆波的其他基金

批准号:61171156
批准年份:2011
资助金额:56.00
项目类别:面上项目
批准号:60872144
批准年份:2008
资助金额:30.00
项目类别:面上项目

相似国自然基金

1

视觉语义启发的视频事件理解技术研究

批准号:61201319
批准年份:2012
负责人:邹晓春
学科分类:F0113
资助金额:26.00
项目类别:青年科学基金项目
2

人运动的视觉分析与理解

批准号:60105002
批准年份:2001
负责人:胡卫明
学科分类:F0604
资助金额:19.00
项目类别:青年科学基金项目
3

动态场景下视觉事件建模与识别方法研究

批准号:61272251
批准年份:2012
负责人:张丽清
学科分类:F0210
资助金额:80.00
项目类别:面上项目
4

道路车辆的信息检测及视觉理解

批准号:61263034
批准年份:2012
负责人:王林
学科分类:F0604
资助金额:45.00
项目类别:地区科学基金项目