With the explosive growth of multi-media data, such as images, videos, and voices, the co- generation of multi-modal data has become one of urgent tasks in big data analysis. The characteristics of multi-modal data, such as diversity, complexity, heterogeneousness and unbalance, cause the inconsistence of the information extracted, the difficulty of feature representations, and the poor generalization ability of analysis models learned. This project aims to solve these problems. Specifically, we will conduct research on the mechanism of generative adversarial networks with the combination of reinforcement learning for multi-modal data, including designing the generative models, discriminative models and the robust training methods for multi-modal situations, and tackling the problem of discrete input to improve the adaptive capabilities of models and generate more realistic data. We will design attention matching mechanisms for multi-modal data, including studying learning methods to learn the key representations of multi-modal data, designing coupling algorithms under data imbalance scenarios, reducing the impact of the imbalance and heterogeneity of multi-modal data in terms of matching accuracy. We will further develop robotic decision-making systems for construction robots in complex scenes, including developing a demonstration system, evaluating the models developed in the project, and improving the resilience of construction robots in complex scenes. The research results of this project are expected to improve the authenticity of different generated modal data and provide a good example for AI's deep applications in different fields, such as visual computing, speech and language processing, Internet and large-scale system information security.
随着图像、视频和语音等多媒体数据的爆炸式增长,多模态数据协同生成成为了当前大数据分析面临的一个紧迫和重要的研究任务。多模态数据的独特性、复杂性、异构性和不平衡性,导致各模态数据描述的关键信息不一致、联合表征困难以及分析模型的泛化能力差等问题。基于此,本项目拟研究①多模态生成对抗网络机理:结合强化学习,设计适合多模态情形的生成模型、辨别模型和鲁棒训练方法,解决目标数据序列离散问题,提高模型适应性,生成更加真实的数据;②多模态数据注意力匹配机制:构建多模态数据联合注意力机制,设计数据不平衡情况下的耦合算法,降低多模态数据不平衡性和异构性对匹配精度影响;③复杂场景建筑机器人决策应用:构建应用示范系统,测试和评价项目涉及的模型及方法,提升复杂场景中建筑机器人应变能力。研究结果可望提升不同模态数据生成的真实性,为AI在视觉计算、语音和语言处理、互联网与大型系统信息安全等领域深度应用提供一些参考。
为了实现目标识别、信息检索、人机对话等智能系统相关领域的信息处理,项目组针对多模态图文转化不清晰、不匹配等问题进行了一系列研究,在多模态数据协同生成方面提出了新的思路和解决方法。本项目已在《IEEE Trans. on PAMI》《IEEE Trans. on MM》、AAAI等重要期刊或会议上发表论文40篇;申请发明专利7件,已授权2项;登记软件著作权2项。研究成果获得省部级奖励1项,厅级奖励3项。承办第九届中国苏格兰信号与图像处理国际学术会议(2018年)和IEEE第十届数据驱动控制与学习系统会议(2021)。主要研究成果包括:.(1)提出了基于多层次结构、注意力级联、注意力对象生成对抗网络的文本生成图像方法。通过对生成器和判别器进行联合训练,克服了传统文本生成图像方法中生成图像质量粗糙、图像匹配度低的问题,提高了图像的边缘细节和局部纹理的清晰度。.(2)提出了基于多模态数据的注意力匹配算法。引入了一个由对象注意力机制组成的新型生成对抗网络,通过多阶段的细化处理来生成高分辨率复杂图像,克服了多模态数据之间语义不匹配以及模态异构问题,有效提升了图像生成质量。.(3)提出了一种基于单词级别的图像编辑方法。利用文本信息对图像的指定区域进行编辑,既保留了原始图像的整体结构,又修改了文本所描述的指定区域纹理,实现了对合成图像进行细粒度控制。.(4)提出了一种基于短语级别的文本编辑图像方法。该方法包括对比学习模块以及属性级别鉴别器,克服了文本编辑图像中部分属性丢失的问题,使文本生成的图像保留了多样性。.(5)提出了一种基于文本和掩膜关系的图像编辑方法。构建了一种多模态信息共享嵌入模块,利用文本和图像信息构架了文本操纵损失和属性保留损失,实现了更加多样的室内场景编辑效果。.(6)提出了多模态数据回溯的多域多任务连续学习方法。克服了知识域漂移、重叠产生的知识遗忘问题,提高了跨任务多模态数据分类性能。.基于上述理论研究成果,研制和优化了一套分析和处理智能体机器人接受视觉、听觉信号的多模态数据协同生成方法,有效提高多模态数据关键信息提取的准确性和匹配的可靠性。相关成果为多模态数据分析和处理的基础理论和关键技术提供一些思路和参考,也为多机器人任务分配、多模态人机交互、跨模态信息检索、多模态话语分析以及多模态故障诊断等应用的性能提升和可靠性提高提供一些技术支持。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
城市轨道交通车站火灾情况下客流疏散能力评价
基于FTA-BN模型的页岩气井口装置失效概率分析
基于数据驱动的量子生成模型及量子生成对抗网络的研究
基于生成对抗网络的释义文本生成研究
生成对抗网络在图像文本跨模态检索中的研究
基于半监督生成对抗网络的最优卷积化数据驱动水库群调度方法