Text translation processing is always independent of translation scenarios for traditional neural machine translation. Therefore, translation is generally unintelligent. In order to address this problem, this paper processes a novel neural machine translation method considering the translation scenario: multi-model neural machine translation. However, image and text are totally different, this paper processes a new visual feature and textual feature alignment method, which seek to align cross-model features in common semantic feature space. Finally, alignment multi-model features are fused in neural machine translation framework. We try to outcome that 1) visual feature and textual feature alignment; 2) multi-model neural machine translation framework by fusion aligned multi-model features to neural networks; and 3) feedback multi-model neural translation problem. Our smart multi-model neural machine translation approaches can adaptive obtain the optimal text translation considering the translation scenario.feedback strategies; 4) two MNMT approaches based on output feedback strategies.
传统神经机器翻译过程中,文本翻译过程与翻译场景等信息是相互独立的,因此,导致神经机器翻译的结果往往不够智能,不能自适应的产生适合翻译场景的文本翻译结果。针对上述问题,本项目拟提出一种考虑外界图像场景信息的神经机器翻译方法:多模态神经机器翻译方法。然而图像、文本信息属于异类信息,彼此之间存在巨大的语义鸿沟,为了解决该问题,本项目提出了一种图像、文本多模态特征对齐融合方法,即将多模态特征分别映射到公共语义特征空间中进行对齐融合。最后将对齐后的多模态特征融入神经机器翻译网络,实现多模态神经机器翻译。拟重点突破:图像文本多模态特征对齐融合技术、多模态对齐特征与神经机器翻译网络的融合技术、文本翻译反馈结果促进多模态特征对齐和机器翻译过程的多模态反馈神经机器翻译方法等关键技术。所提方法可以很好的适应外界翻译场景,有倾向性的生成适合外界场景的文本翻译结果,实现智能化的神经机器翻译。
多模态神经机器翻译旨在感知和利用场景图像信息,生成适合场景的目标句子,提升机器翻译的水平。然而图像和文本在数据形态和语义表达上存在较大差异,如何有效对齐图文特征是多模态神经机器翻译的难题之一。项目围绕图文特征对齐、图文多模态机器翻译及文本增强的神经机器翻译等三个方面开展了研究,取得了一定成果:在图文特征对齐方面,提出了跨模态细粒度语义引导的图文特征对齐方法,利用多模态门控实现了图文细粒度特征自适应对齐;提出了层级语义渐进对齐的特征融合方法,采用由粗到细的层级渐进语义融合策略,实现了图文语义融合;提出了基于双重注意力的视频图文特征对齐方法,利用时间和空间双重注意力机制,从时间和空间维度实现了图文语义对齐;提出了噪声图文自适应孪生对齐方法,通过多模态自适应鲁棒表征,解决了噪声图文语义对齐难的问题,提升了多种场景下的图文对齐性能。在多模态机器翻译方面,提出了图文双级交互多模态机器翻译方法,采用两种视觉与文本mixup交互,实现了视觉对文本翻译的增强;提出了图文跨模态鲁棒交互多模态机器翻译方法,通过动态图文mask自注意力交互,实现了图文鲁棒性表征,提升了文本机器翻译的性能。在文本信息增强的机器翻译方面,提出了基于源语言句法增强的神经机器翻译方法,利用句法约束mask自注意力机制,实现了句法和语义信息自适应融合;提出了融合文本预训练知识的机器翻译方法,基于mask融合机制,实现了预训练知识对机器翻译的有效指导,提升了机器翻译性能。研发了多模态神经机器翻译原型系统,实现了机器翻译对场景图像信息的感知利用。发表论文17篇,SCI论文6篇,包括一区SCI论文2篇,二区SCI论文1篇,国际顶级会议2篇;申请国家发明专利6项,授权2项;培养硕士8人。项目研究成果创新了图文跨模态交互、多模态神经机器翻译等关键技术,提升了机器翻译对场景图像的感知能力,为后续图文融合、多模态机器翻译提供了理论和技术支撑。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
基于多模态信息特征融合的犯罪预测算法研究
水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
基于多模态前列腺图像特征融合的多器官联合分割研究
融合多模态文本关联分析与挖掘的跨媒体社会图像检索方法研究
自然场景中多模态图像内容的文本描述方法研究
多源多模态图像特征融合研究及在自闭症早期诊断中的应用