The Youth Science Foundation project mainly researches how to recover high-quality depth and 3D information from images/videos. We already have achieved important progress. We have published 2 papers in top international journals (TPAMI, TVCG), 3 papers in top vision conferences (ICCV, CVPR, ECCV), 2 papers in important international conferences (EI index), 3 papers in domestic core journals, and also applied 4 patents (one patent has been authorized). Considering the popularity of 3D videos, this project will continue and extend the original work, research and develop a series of automatic and semi-automatic 3D conversion methods to solve the 3D video conversion problem. First, we would like to develop a spatio-temporally consistent depth recovery method which can handle complex scenes, such as strong occlusions, large textureless regions and dynamic scenes. Second, we would like to develop a fast interactive video segmentation and depth recovery method, by combining vision, interactive graphics and machine learning algorithms. Third, we would like to develop a spatio-temporal video completion method to complete the missing pixels caused by occlusions during novel view synthesis for generating stereoscopic images, so that a high-quality stereoscopic video can be achieved. Finally, we shall build a complete 2D to 3D video conversion prototype system to verify the proposed methods.
正在承担的青年科学基金项目主要是研究如何从图像/视频中恢复高质量的深度和三维信息,目前取得了重要进展,已在国际顶级期刊(TPAMI、TVCG)上发表论文2篇,视觉顶级会议(ICCV、CVPR、ECCV)上发表3篇,其它重要国际会议论文2篇(EI检索),国内核心期刊3篇,申请专利4项(其中1项已授权)。结合目前的视频三维立体化热潮,本项目将在原有的工作基础上继续深入和完善,研发一套完整的自动和交互相结合的视频三维立体化方法,解决视频的三维立体化难题。重点研究:复杂场景的时空一致性深度恢复技术,能够处理严重的遮挡、无特征区域以及动态场景的高质量深度恢复;快速的时空一致性视频交互分割与深度赋予技术;面向立体视频合成的时空一致性补全技术,解决基于图像的绘技术由于遮挡造成的图像内容缺失问题,保证生成的立体视频的高质量。在此基础上,本项目还将搭建起一个完整的视频三维立体化原型系统,验证所提出的方法。
三维视频技术作为当前影视技术的主流发展方向,具有巨大的产业前景。为此,本项目深入研究了视频三维立体化中的各种问题,研发了一整套自动和交互相结合的视频三维立体化技术,在国内外期刊和会议上发表了11篇高水平论文,申请了4项国家发明专利(其中3项已授权)和5项软件著作权。主要研究内容和重要结果包括:1)在摄像机跟踪方面,研发了一整套面向大尺度场景的运动推断结构和同时定位与地图构建技术,在场景的规模、精度和计算效率上都取得了重要突破(在普通PC上能实时处理超过9万帧的长视频序列),能够高效地将多视频序列高效地匹配起来并注册到同一个三维坐标系下,稳定性超过ORB-SLAM、LSD-SLAM、VisualSFM和OpenMVG等国际著名开源软件;在此基础上,针对移动设备计算能力有限的特点,对框架进一步改进和优化,在移动设备上做到了实时,并能处理相机快速运动和强旋转的情况;2)在深度恢复方面,提出了一系列自动和半自动的深度恢复方法(包括基于多目视频的时空一致性深度恢复、交互式深度恢复和基于深度学习的单张图像自动深度预测等),解决了高效、高质量的深度恢复难题;3)在三维几何重建和纹理映射方面,提出了一系列三维重建方法,包括自适应点云采样与建模、基于图像序列的交互式三维建模和基于深度相机的鲁棒三维重建等,并在此基础上将拍摄的图像作为纹理映射到三维几何模型上,通过优化每个面片的最优纹理图像对应关系和梯度域融合来消除纹理拼接缝隙,最终成功地实现了物体和场景的高效三维扫描和真实感重新表达;4)在视频分割方面,提出了一系列自动和半自动的视频分割方法,包括基于深度恢复的时空一致性分割、基于形状先验的视频对象分割和针对静态场景的交互式多层分割,大大提高了视频分割的效率和质量;5)通过整合以上各项研究成果设计了一个高效的面向影视作品的三维立体化框架,并搭建起一个完整的视频三维立体化原型系统,在实际的电影2D转3D上得到了成功应用。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于时空注意力机制的目标跟踪算法
基于空洞卷积鉴别器的语义分割迁移算法
教学视频播放速度与难易程度对学习的影响研究
三维点云预采样的曲面自适应布点策略及应用
教师手势对视频学习的影响及其认知神经机制
面向视频立体化应用的运动人体三维建模方法研究
面向二维视频立体化的时空一致性补全技术研究
基于深度信息的三维视频编码技术研究
三维视频的率失真优化编码技术研究