Along with the recent development of virtual reality, panoramic video will be a potential direction of the future multimedia technology, providing immersive quality of experience (QoE). In contrast to traditional video, panoramic video has wider range, more content and higher resolution. Therefore, panoramic video produces enormous data, posing the challenge to computation and communication bandwidth. On the other hand, there exists large perceptual redundancy in panoramic video, as the field of video (FoV) of human only covers 1/10 area of panoramic video frames. Thus, it is necessary to study on the perception model of panoramic video for removing the perceptual redundancy of panoramic video. To this end, this project will focus on the data-driven perception model of panoramic video, which aims at predicting FoV and eye fixations on panoramic video. Specifically, this project will conduct the interdisciplinary research of cognition, computing and signal processing. The main content of our project includes: (1) Large-scale perception database and human behavior analysis for panoramic video; (2) Deep inverse reinforcement learning based FoV prediction of panoramic video; (3) human behavior oriented internal-FoV attention model of panoramic video; (4) Perception-inspired panoramic video compression demonstration platform. This project will provide the theoretical foundation for panoramic video compression and processing, and it will technically support the new multimedia application of virtual reality.
近年来,随着虚拟现实技术的发展,具有沉浸式用户体验的全景视频将成为未来多媒体技术的重要发展方向。与传统视频相比,全景视频覆盖全、内容多、分辨率高,将产生大量多媒体数据,造成计算与通信资源极度受限;另一方面,人类观看全景视频的视场仅占全景视频覆盖区域的1/10,存在大量感知冗余;因此,迫切需要预测人类对全景视频的感知行为。利用已有研究基础,本项目将研究数据驱动下的全景视频感知模型,基于深度模仿学习预测人类的视场与关注区域,挖掘全景视频感知冗余。具体地,本项目拟重点开展认知、计算与信号处理交叉的理论研究,主要研究内容包括:(1)全景视频感知数据库及人类感知行为分析;(2)基于深度反向强化学习的全景视频视场预测方法;(3)面向人类感知行为的视场内视觉注意模型;(4)基于感知模型的全景视频压缩演示验证平台。本项目将为全景视频感知模型提供新的理论依据与技术支持,促进全景视频处理技术的发展。
在本项目支持下,项目负责人及其团队从人类视觉感知机理出发,开展认知、计算和信号处理等多学科前沿交叉研究,构建大规模全景视频感知数据库,分析和预测人类感知行为,构建基于人类感知的全景视频感知模型,为大幅降低全景视频数据量提供模型基础,达到预期的研究目标。取得的主要创新成果如下。.1、针对缺少全景视频人类视场及关注点数据的现状,构建大规模全景视频感知数据库,并标注人类头动以及关注点数据,揭示人类感知行为规律。统计实验结果验证:人类感知关注行为具有中心偏置且一致性,为后续建模和方法设计奠定理论基础。.2、针对全景视频人类视场难以预测的难题,建立深度学习网络自动提取视场相关特征并设计视场回报函数,提出深度反向强化学习方法以优化视场预测,实现在线和离线场景下的视场准确预测。实验结果表明:本项目可准确预测人类观看视窗,与同期先进方法相比,准确性的关键指标CC指标提升24%。.3、针对全景视频关注点受视场干扰的困境,提出不同视场下的多任务学习方法,构建视场内多任务视觉注意模型,准确预测全景视频中的人类关注点。实验结果表明:本项目可大幅提升全景视频显著性预测准确性,CC指标提升28%。.4、为验证上述关键技术,本项目构建全景视频压缩演示验证平台,在相同主观质量条件下,可节省全景视频28%的压缩码率。.本项目在IEEE TPAMI(影响因子:24.31)、TIP、IJCV等SCI期刊论文发表论文28篇,均为一区论文,其中IEEE期刊论文26篇;在IEEE ICCV、CVPR、ECCV、DCC等国际顶级/重要会议(CCF A/B类)发表EI论文24篇;获IEEE会议最佳论文奖1项;SCI他引超1000次;获得发明专利13项、软件著作权3项;提交国际标准采纳技术提案5项。获教育部技术发明一等奖(项目负责人排名:1)、中国科协求是杰出青年奖。项目负责人徐迈入选教育部“长江学者”奖励计划特聘教授,培养的学生获北京市优秀博士论文、中国图象图形学学会优秀博士学位论文。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
基于SSVEP 直接脑控机器人方向和速度研究
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
全景视频感知理解及呈现关键技术研究
基于视觉感知的高效3D全景视频编码压缩研究
QoE驱动下的基于内容分析的3D视频感知编码研究
基于视频的全景人体动画