Structured knowledge of natural languages at syntactic and discourse levels is one kind of the most important features of natural languages. Statistical syntax-based machine translation treats machine translation as a process of converting source structures to target ones at single sentence level. Therefore, cross-language structure divergence and cross-sentence discourse information deficiency are two fundamental issues for the state-of-the-art statistical syntax-based machine translation. This proposal aims to focus on the following researches to address the two fundamental issues aforementioned: 1) from bilingual alignment and mapping viewpoints, study weakly-supervised and unsupervised bilingual grammar induction algorithms, automatically construct machine translation-oriented bilingual grammar rule systems and mapping mechanisms in order to solve the cross-language structure divergence issue; 2) establish the discourse-based model for statistical machine translation in order to impose consistent discourse structures and fundamental discourse features between source and target languages, and thus fill in the discourse information deficiency in the state-of-the-art statistical machine translation research. The research achievements from this proposal will establish the foundation of theory and technology for next generation syntax-based statistical machine translation, and provide guidance to deep semantic structures-based statistical machine translation in the future.
语言的结构性,包括句法和篇章等结构信息,是语言的基本特征之一。统计句法机器翻译把翻译看作是一个从源语言到目标语言的句法结构转换过程,而这种转换过程目前是以单一句子为基本单位进行的。因此,跨语言句法结构差异性和跨句子篇章结构信息的缺失是目前统计句法机器翻译面临的两个核心问题。本项目拟围绕这两个问题展开以下创新性研究:1)从双语映射角度出发,研究弱指导和无指导的双语句法推导算法,自动构建适合机器翻译的双语句法规则体系和映射机制,进而解决跨语言句法结构差异性;2)建立篇章级翻译模型,使得源语言篇章结构信息和篇章基本特征在目标语言中得到体现,使生成的目标语言具有良好的篇章一致性,进而填补机器翻译中篇章信息缺失这一研究空白。本项目预期成果不仅可以为下一代统计句法机器翻译奠定理论和技术基础,同时也可以为未来基于深层语义结构信息的统计机器翻译提供借鉴。
本项目研究语言间的结构性差异,从句法级别和篇章级别研究双语间的差异并对此建模,从而使统计机器翻译模型更好地处理跨语言句法结构差异性和跨句子篇章结构信息的缺失问题。本项目分别从两个方面开展研究:1)从双语句法映射角度出发,研究基于弱指导和无指导的双语句法推导,从而解决跨语言句法结构差异性;2)从双语篇章结构的映射角度出发,研究双语篇章话题分布以及双语篇章词汇语义等连接关系,从而改进机器翻译篇章级别的一致性和准确性。这两个方面的研究为统计机器翻译提供了理论和技术基础,在国际顶级学术期刊和学术会议发表论作,并就句法结构分析和机器翻译研究分别出版了两本专著,为未来基于深层语义结构信息的机器翻译研究提供参考和借鉴。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于被动变阻尼装置高层结构风振控制效果对比分析
基于改进LinkNet的寒旱区遥感图像河流识别方法
血管内皮细胞线粒体动力学相关功能与心血管疾病关系的研究进展
基于SSR 的西南地区野生菰资源 遗传多样性及遗传结构分析
石萆汤对弱精子症患者精子线粒体膜蛋白PHB及超微结构的影响
基于篇章语义的文档级统计机器翻译研究
基于深度句法的统计机器翻译方法研究
基于句法结构和语义框架的机器翻译自动评价方法研究
基于主干成分的句法统计机器翻译模型研究