数据驱动的可视媒体跨域交互合成

基本信息

批准号：61902012

项目类别：青年科学基金项目

资助金额：26.00

负责人：汪淼

学科分类：

依托单位：北京航空航天大学

批准年份：2019

结题年份：2022

起止时间：2020-01-01 - 2022-12-31

项目状态：已结题

项目参与者：

关键词：

图像视频的结构分析基于文本的图像合成图像视频编辑生成对抗网络

结项摘要

The types of media that deliver visual information are called visual media, including image, video, digital geometry, etc. In recent years, visual media synthesis has made great progress, and data-driven methods such as deep learning have become the mainstream method in visual media synthesis. Cross-domain visual media synthesis aims to synthesize photo-realistic visual media content from abstract input semantic information. It has achieved good results in text-based image synthesis and sketch-based image synthesis and has become a new research topic. However, the existing cross-domain synthesis technology of visual media has problems such as poor semantic correspondence, low interaction flexibility, and uncontrollable synthesis style in the results...This project focuses on data-driven cross-domain interactive visual media synthesis, with research in text-based high-fidelity image synthesis, text-driven interactive video synthesis and style-consistent image synthesis based on generative adversarial networks. The three key scientific problems to solve are semantic figuration, intelligent interaction, and style-consistent image synthesis in cross-domain interactive visual media synthesis. The goal of this project is to promote visual media content creation for everyone.

承载视觉信息的媒体类型称为可视媒体，包括：图像、视频和数字几何等。近年来，可视媒体合成取得了极大的进展，以深度学习为代表的数据驱动方法成为可视媒体合成的主流方法。可视媒体跨域合成旨在由输入的抽象语义信息合成具象的可视媒体内容，在基于文字的图像合成、基于草图的图像合成方面已取得初步成果，成为了新的研究热点。然而，现有的可视媒体跨域合成技术存在语义难对应、交互灵活性低、合成结果风格不可控等问题。.本项目拟面向数据驱动的可视媒体跨域交互合成，研究文字驱动的高逼真度图像合成、基于文字编辑的视频交互合成和基于生成对抗网络的风格一致性图像合成，解决数据驱动的可视媒体跨域交互合成中抽象语义的结构表达与内容合成、可视媒体跨域智能交互、风格一致性内容合成三个关键科学问题，实现交互友好、可扩展性高的个性化可视媒体内容生成，促进可视媒体内容创作与大规模生产。

项目摘要

近年来，可视媒体内容生成技术取得了极大的进展，以深度学习为代表的数据驱动方法成为可视媒体编辑与合成的主流方法。现有的可视媒体跨域合成技术存在语义难对应、交互灵活性低、合成结果风格不可控等问题。本项目面向数据驱动的可视媒体跨域交互合成，在以下方面取得了突破：1）针对抽象语义的结构表达与内容合成这一关键问题，提出了语音驱动的高真实感人像视频合成方法，针对输入的一段目标人像视频，由任意角色的语音驱动其面部表情和动作重新定制，使其动作自然且与语音内容同步，具有高真实感；2）针对跨模态可视媒体合成与交互编辑这一问题，提出了文本驱动的视频剪辑方法和角色动画生成方法，生成高质量视频和动画结果；3）针对基于生成对抗网络的一致性图像合成问题，提出了从单张复杂室内场景图像中估计光照信息的方法，使得虚拟物体渲染具有光照一致性。此外，本项目对虚拟现实中的内容高效浏览和导航问题进行了探索：针对全景视频的高效浏览问题，提出了基于内容感知的多相机路径规划及全景视频交互浏览方法，保证了全景视频浏览的高效性；针对沉浸式虚拟环境导航问题，提出了基于重定向运动的虚拟环境高效导航方法，开源了重定向行走工具及基准集。依托该项目，研究团队共发表学术论文14篇。其中期刊论文6篇（SCIE检索5篇）、会议论文8篇；CCF-A类期刊和会议论文6篇。培养硕士研究生6名。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.3778/j.issn.1002-8331.1911-0012

发表时间：2020

DOI：10.13197/j.eeev.2019.05.95.fuwq.009

发表时间：2019

DOI：

发表时间：

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

DOI：10.11842/wst.20190724002

发表时间：2020

汪淼的其他基金

批准号：81100739

批准年份：2011

资助金额：22.00

项目类别：青年科学基金项目

相似国自然基金

体数据可视化中的多域交互研究

批准号：60873122

批准年份：2008

负责人：林海

学科分类：F0214

资助金额：35.00

项目类别：面上项目

查询驱动的交互式多媒体数据清洗方法研究

批准号：61572252

批准年份：2015

负责人：张立言

学科分类：F0210

资助金额：65.00

项目类别：面上项目

移动互联下大数据驱动的视觉媒体合成

批准号：61602406

批准年份：2016

负责人：廖子承

学科分类：F0210

资助金额：20.00

项目类别：青年科学基金项目

面向可视媒体智能分析的草图交互技术研究

批准号：61872346

批准年份：2018

负责人：马翠霞

学科分类：F0209

资助金额：63.00

项目类别：面上项目

数据驱动的可视媒体跨域交互合成

{{i.achievement_title}}

暂无此项成果

其他相关文献

针对弱边缘信息的左心室图像分割算法

基于被动变阻尼装置高层结构风振控制效果对比分析

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于改进LinkNet的寒旱区遥感图像河流识别方法

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

汪淼的其他基金

TAp63和△Np63在侧腭突MEE消失过程中作用机制研究

相似国自然基金