Currently, the most popular machine translation models are based on sentence-level, which makes many discourse structure and semantic information missing that resulting in a lot of translation problems. In order to solve these problems, we propose a novel translation framework to do translation on discourse-level, which can greatly improve the translation fluency and readability. The main contents of this proposal include: (1) From the perspective of discourse-oriented translation, study on the annotation guideline to build a large scale of monolingual and bilingual discourse-level corpus; (2) Study on how to build an automatic parser based on the tagged corpus to express a discourse as the corresponding semantic tree; (3) Study on how to build a reasonable framework to make full use of the discourse structure and semantic information for translation and study on the corresponding algorithms of training and decoding; (4) Design an effective evaluation method for the discourse-based model. The research achievements will explore new ideas for the discourse-based translation and the expected research results will promote the development in translation community, which has important theoretical significance and practical value.
目前主流的机器翻译方法都是建立在句子级别上,由于缺失了句子之间的上下文关联信息,往往导致很多在篇章层面才能获取到的结构和语义信息严重缺失,使得翻译的流畅性和可理解性都很差,因此,本项目紧紧围绕篇章翻译的关键技术展开如下创新性研究:(1)研究面向篇章翻译的语料库标注理论和方法,构建服务于篇章翻译的较大规模篇章标注语料库;(2)研究面向篇章翻译的篇章语义结构树分析方法,建立层次化的篇章逻辑结构语义树;(3)研究基于篇章语义树的翻译模型及其训练和解码算法;(4)构建面向篇章翻译的译文自动评估方法。本项目的研究工作必将为基于语料库的机器翻译方法探索新的研究思路,并面向实际应用,拓展和发展篇章理解理论,对于丰富和发展机器翻译方法及篇章分析理论都具有重要的理论意义和应用价值。
目前主流的机器翻译方法都是以句子为单位进行逐句翻译,这样就导致很多在篇章层面才能获取的结构和语义信息严重缺失,使得翻译的流畅性和可理解性都非常差强人意。因此,迫切需要构建面向篇章的全新翻译模式,来提供更多更全面的结构和语义信息,提高翻译的可读性。.在这种目标导向下,本项目紧紧围绕篇章翻译的关键技术展开了一系列相关研究,主要包括:(1)深入调研了当前主流篇章语料库标注理论方法,建立了一整套可计算的面向翻译的篇章标注理论和标注规范,并构建了服务于汉英篇章翻译的较大规模篇章标注语料库;(2)深入考察了当前主流篇章语义结构树分析方法,并建立了面向汉英翻译的层次化篇章逻辑结构语义树标注体系和自动分析工具;(3)在前述语料库和分析工具支撑下,提出了一种全新的基于篇章分析的翻译模式,该模式能够将篇章结构和语义信息很好地迁移并融合到篇章翻译模型中,保证了译文和源语言在修辞关系上的一致性,提高了解码器对源语言逻辑结构的敏感性,从而显著改善译文的流畅性和可理解度;(4)提出一种译文篇章单元完整性评价方法,该方法从带篇章单元标注信息的目标语言语料中,自动学习如何预测译文的篇章单元完整性,并在源语言篇章单元的约束下对翻译候选的完整性进行打分,通过对目标译文篇章单元的完整性评估,帮助翻译系统有效改善译文质量。本项目的研究工作必将为基于语料库的机器翻译方法探索新的研究思路,对于丰富和发展机器翻译方法及篇章分析理论都具有重要的理论研究意义和工程应用价值。.三年来,项目总体进展一切顺利,所有研究计划已按要求完成。共发表学术论文11篇,被国际顶级期刊录用论文3篇;申请国家发明专利4项,获得3项软件著作权登记;培养研究生7名,达到了项目的预期目标和成果。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
监管的非对称性、盈余管理模式选择与证监会执法效率?
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
面向多层次篇章语义的机器翻译理论、方法与实现
基于句法结构和篇章结构的统计机器翻译关键技术研究
应用于面向问题的自动文摘任务的篇章分析关键技术研究
面向科技文献的机器翻译关键技术研究