Three dimensional (3D) stereoscopic and multi-view video systems tend to induce some discomfort for the user with causing fatigue and headaches, so that enter into a development bottleneck. Holoscopic imaging, also known as integral imaging, became recently the direction of 3D video technology for its simplest form with more comfortable viewing perception compared to holography imaging. The data amount of holoscopic video is much more than that of multi-view video, such that studying on holoscopic video coding is an urgent issue. This project will study the self-similarity modeling, prediction coding, and scalable coding for 3D holoscopic video. It can achieve high efficient and practical coding schemes by establishing the theory model of self-correlation prediction for holoscopic video, formulating the strategies for improving matching precision and prediction efficiency, designing a framework and studying solutions for holoscopic scalable video coding with good backward compatibility to legacy 2D or 3D video system, so as to overcome the drawbacks of existing holoscopic coding methods, that are not making full use of the characteristics of holoscopic video, high complexity, and not being compatible to legacy 3D content generation and displays. The research results will rich 3D video coding theories, and also push the development of holoscopic imaging technology.
立体及多视点三维显示由于容易引起视觉疲劳和头痛等不舒适的观感从而进入发展的瓶颈,Holoscopic成像也即集成成像因其舒适的观看体验和比全息成像更为简单的成像设计,成为下一代3D视频技术的发展方向。Holoscopic成像生成的密集视点视频的数据量远远高于多视点视频数据,研究高效的密集视点视频压缩编码方法是亟待解决的问题。本项目拟研究密集视点视频的自相关模型、预测编码方法、以及可分级编码方法,通过建立密集视点视频的自相关性预测理论模型,制定提高块匹配精度和预测编码效率的策略,设计可分级编码架构和研究具有良好后向兼容性的可分级编码方法,获得一套针对3D密集视点视频的高效、实用的编码方法,解决现有编码方法未能充分利用密集视点视频特性、效率低、复杂度高、以及不能兼容现有3D内容生成及其立体显示方式等问题。项目研究成果将丰富3D视频编码理论,推进三维Holoscopic成像技术的发展。
3D Holoscopic成像,即光场成像,可同时记录光线的位置和角度信息,实现数字重聚焦、全景深扩展、自由立体显示等传统成像所不具备的创新功能,是新一代视觉技术的发展方向。但高维密集的光场成像数据量给存储和传输带来巨大挑战,如何高效压缩光场图像是光场成像面向应用的瓶颈。本项目围绕高维密集光场数据压缩编码展开,主要研究内容及成果如下:.(1)以帧内预测为核心,提出5种性能逐级提高的光场透镜图像压缩算法,性能优于高效视频编码标准HEVC的帧内编码方法,信噪比PSNR提高2.67dB,码率下降36.32%。.(2)利用子孔径图像之间的强相关性,提出单视和多视光场伪视频编码方法,比HEVC帧内编码PSNR提高2.71dB、码率降低44.05%。性能优于透镜图像及经典子孔径图像编码方法。.(3)为进一步提升编码效率和应对实际应用中网络延迟问题,提出光场图像稀疏编码框架,在此基础上提出两种光场可分级编码方法,比HEVC帧内编码PSNR提高3.58dB,码率降低51.35%;还提出一种解码端CNN超分辨增强的稀疏编码方法,比典型伪视频编码PSNR提高2.85dB、码率降低66.9%。在高效压缩的同时满足快速传输和解码的需求。.(4)充分利用光场角度域相关性和稀疏性,构建多视加深度视频(MVD)光场图像稀疏编码框架。在以深度-虚拟视失真指数模型优化MVD率失真函数基础上,提出3种深度估计和编码策略逐级优化的编码方法,比经典子孔径编码PSNR提高2.59dB、码率下降64.76%,总体性能达到最佳。.(5)提出基于感知对抗和渐进式网络环路滤波、基于卷积自编码机帧内预测、及基于CNN编码单元结构快速决策算法,显著提高了HEVC、JVET视频编码性能,为进一步研究智能光场图像编码打下基础。.(6)系统地提出充分考虑人眼感知特性和图像内容特点的全参考、半参考和无参考的立体图像质量评价模型,满足不同应用需求;构建光场图像质量评价数据集,提出利用光场图像稀疏特性和重聚焦特性的光场图像质量评价方法,缓解了缺乏光场图像评价数据集和方法的问题。.发表SCI检索期刊论文25篇、EI检索会议论文23篇;申请发明专利5项,含授权3项。研究成果丰富了光场数据处理理论,促进了光场技术的应用发展。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
基于LASSO-SVMR模型城市生活需水量的预测
基于多模态信息特征融合的犯罪预测算法研究
多源数据驱动CNN-GRU模型的公交客流量分类预测
基于混合优化方法的大口径主镜设计
基于视觉感知的嵌入式多视点视频编码方法研究
基于区域选择性视觉冗余的多视点视频编码方法研究
基于3D视觉注意的自由视点视频编码与传输
自由视点多视视频编码及3D立体显示基础理论与关键技术