Constructing the disentangled representation of data has important scientific and application value for improving the interpretability of the representation and extending the application scenario of the representation. This project addresses three basic problems in disentangled representation learning: “decomposition of heterogeneous common and individual, decomposition of different attribute representation, the decomposition of multi-level representation”. Based on the three interrelated disentangled factors of modality, attribute, and hierarchy, we systematically study and develop the disentangled representation learning model and algorithm for multimodal data of image and text. The coordinated and modality-specific autoencoder is proposed to decompose the representation of each modality into a coordinate representation and a modality-specific representation, while preserving and distinguishing the common part and the individual part of multimodalities; to model the complex multimodal representation units, the attribute coordinated and modality-specific variational autoencoder is proposed to decompose the coordinate representation of each modality into several attribute units; the hierarchy coordinated and modality-specific variational autoencoder is proposed to further decompose the coordinate representation into different levels according to the degree of abstraction of attribute units, and learns cross-modality association at multiple levels with explicit semantics. Through these technologies, multi-level cross-modal association of image-text information is obtained. The verification analysis of the learned representation is performed on three cross-modal association tasks. This research not only promotes the effective improvement of tasks such as cross-modal retrieval, but also provides better interpretability for cross-modal representation.
构建数据的解纠缠表示对于提升表示的可解释性、扩展表示的使用范围具有重要的科学和应用价值。本项目针对图-文多模态数据解纠缠表示学习中的三个基础性问题“异模态共性和个性表示分解、不同属性表示分解、多层次表示分解”,基于模态、属性和层次这三个相互关联的解纠缠因子,系统地研究和发展面向图-文多模态数据的解纠缠表示学习模型与算法。提出对应特定自编码器将每个模态数据的表示分解成对应表示和特定表示,同时保留并区分每个模态数据的共性部分和个性部分;提出属性对应特定变分自编码器进行属性解纠缠,将每个模态的对应表示分解成若干属性单元,以建模复杂的多模态表示单元;提出层次对应特定变分自编码器,在多个语义抽象层次同时进行解纠缠学习。通过这些技术实现图-文信息的跨模态、多层次有效关联,在跨模态检索等三个任务中进行有效性验证。该研究不仅能促进跨模态检索等任务性能的有效提升,而且为跨模态数据表示带来更好的可解释性。
构建数据的解纠缠表示对于提升表示的可解释性、扩展表示的使用范围具有重要的科学和应用价值。本项目系统地研究了面向图-文多模态数据关联的解纠缠表示学习方法,针对不同的多模态任务,设计解纠缠的对象因子和模型结构,主要包括:(1)针对跨模态检索任务,设计了基于自编码器的模态解纠缠模型,充分挖掘图文数据的公共部分和特定部分;(2)针对单句描述到图像的生成任务,设计了模态解纠缠的生成式对抗网络框架,显示的区分图像中文本相关和文本无关部分,实现更可控的图像生成;(3)针对富文本描述到图像的生成任务,设计了属性解纠缠的生成式对抗网络框架,将描述中包含的物体属性和局部细节等信息对应到生成图像上,优化生成图像的细节;(4)针对对话文本描述到图像生成任务,设计了随机重放训练算法和模型,通过随机裁剪对话轮次并构造伪训练样本的方法,减弱了由于缺乏中间时刻图像监督而导致模型训练与测试不一致的问题,实现了生成图像中物体数量的解纠缠。(5)设计了基于多模态预训练模型的渐进式文本生成图像模型,构建由粗略到精细的层次解纠缠的多阶段生成结构,使得生成图像的每个阶段都专注于特定粒度的信息。此外,基于上述研究,项目组设计并实现了交互式图像生成演示系统。系统实现了交互式的单句和对话描述到图像生成功能,允许用户按需生成图像并交互地修改和完善图像,展示了模型的性能和机器辅助图像创作的应用潜力。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
基于分形L系统的水稻根系建模方法研究
跨社交网络用户对齐技术综述
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于用户表示学习的跨网络用户虚拟身份关联映射研究
基于深度学习的社交图像多模态表示学习研究
面向网络图像检索的弱监督多模态跨域机器学习方法研究
融合视觉特征的城市空间场景跨模态关联学习及其上下文语义模式发现