The types of media that deliver visual information are called visual media, including image, video, digital geometry, etc. In recent years, visual media synthesis has made great progress, and data-driven methods such as deep learning have become the mainstream method in visual media synthesis. Cross-domain visual media synthesis aims to synthesize photo-realistic visual media content from abstract input semantic information. It has achieved good results in text-based image synthesis and sketch-based image synthesis and has become a new research topic. However, the existing cross-domain synthesis technology of visual media has problems such as poor semantic correspondence, low interaction flexibility, and uncontrollable synthesis style in the results...This project focuses on data-driven cross-domain interactive visual media synthesis, with research in text-based high-fidelity image synthesis, text-driven interactive video synthesis and style-consistent image synthesis based on generative adversarial networks. The three key scientific problems to solve are semantic figuration, intelligent interaction, and style-consistent image synthesis in cross-domain interactive visual media synthesis. The goal of this project is to promote visual media content creation for everyone.
承载视觉信息的媒体类型称为可视媒体,包括:图像、视频和数字几何等。近年来,可视媒体合成取得了极大的进展,以深度学习为代表的数据驱动方法成为可视媒体合成的主流方法。可视媒体跨域合成旨在由输入的抽象语义信息合成具象的可视媒体内容,在基于文字的图像合成、基于草图的图像合成方面已取得初步成果,成为了新的研究热点。然而,现有的可视媒体跨域合成技术存在语义难对应、交互灵活性低、合成结果风格不可控等问题。.本项目拟面向数据驱动的可视媒体跨域交互合成,研究文字驱动的高逼真度图像合成、基于文字编辑的视频交互合成和基于生成对抗网络的风格一致性图像合成,解决数据驱动的可视媒体跨域交互合成中抽象语义的结构表达与内容合成、可视媒体跨域智能交互、风格一致性内容合成三个关键科学问题,实现交互友好、可扩展性高的个性化可视媒体内容生成,促进可视媒体内容创作与大规模生产。
近年来,可视媒体内容生成技术取得了极大的进展,以深度学习为代表的数据驱动方法成为可视媒体编辑与合成的主流方法。现有的可视媒体跨域合成技术存在语义难对应、交互灵活性低、合成结果风格不可控等问题。本项目面向数据驱动的可视媒体跨域交互合成,在以下方面取得了突破:1)针对抽象语义的结构表达与内容合成这一关键问题,提出了语音驱动的高真实感人像视频合成方法,针对输入的一段目标人像视频,由任意角色的语音驱动其面部表情和动作重新定制,使其动作自然且与语音内容同步,具有高真实感;2)针对跨模态可视媒体合成与交互编辑这一问题,提出了文本驱动的视频剪辑方法和角色动画生成方法,生成高质量视频和动画结果;3)针对基于生成对抗网络的一致性图像合成问题,提出了从单张复杂室内场景图像中估计光照信息的方法,使得虚拟物体渲染具有光照一致性。此外,本项目对虚拟现实中的内容高效浏览和导航问题进行了探索:针对全景视频的高效浏览问题,提出了基于内容感知的多相机路径规划及全景视频交互浏览方法,保证了全景视频浏览的高效性;针对沉浸式虚拟环境导航问题,提出了基于重定向运动的虚拟环境高效导航方法,开源了重定向行走工具及基准集。依托该项目,研究团队共发表学术论文14篇。其中期刊论文6篇(SCIE检索5篇)、会议论文8篇;CCF-A类期刊和会议论文6篇。培养硕士研究生6名。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
玉米叶向值的全基因组关联分析
跨社交网络用户对齐技术综述
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
体数据可视化中的多域交互研究
查询驱动的交互式多媒体数据清洗方法研究
移动互联下大数据驱动的视觉媒体合成
面向可视媒体智能分析的草图交互技术研究