How to improve the the domain adaptive capacity of the machine translation system is a key research problem. In order to deal with the domain diversity and dynamic nature of human languages, this project will study domain adaptation for machine translation from the following three aspects. First, from the machine translation view, we will study a sentence-clustering algorithm that can group sentences together that share the same or similar transltion regularities and rules.Therefore it can devide the parallel corpus into different domains and enable the application of domain adaptation. Second, we will study how to build a topic model that is suitable for machine translation task in terms of granularity and representation and allow domain-specific translation. Third, to deal with dynamic nature of human languages, we will study how to discover and mine new trnslaion of words based on monolingual corpora. To sum up, the goal of our proposal is to improve domain adaptive capacity of the machine translation system and promote its application in the real world.
如何提高统计机器翻译系统的领域自适应能力,是一个具有重大实用价值的科学研究问题。本项目针对人类语言的领域多样性和动态变化等特点,将从三个主要方面对机器翻译领域自适应问题展开深入研究。第一,从机器翻译的角度来研究句子聚类方法,把具有相同或相似翻译规律的句子聚合在一起,把领域混杂的平行语料库划分为不同的领域,从而为领域自适应技术的实施提供便利条件。第二,研究一种基于短语网格的主题模型构建方法,能够在文本的表示方法和粒度上都更适应于机器翻译任务,使得翻译系统具有更好的领域区分能力。第三,研究基于单语语料的词语新译法自动发现及译文挖掘方法,能够从实时更新的单语语料中源源不断地获取新的翻译知识,使得翻译系统具有应对语言动态变化的能力。综上,本申请的研究目标是提高机器翻译系统的领域自适应能力,更好推动机器翻译走向实用化。
本项目紧密围绕“提升翻译系统的领域适应性” 这一核心计划展开,主要研究内容包括翻译词典的自动获取、句法知识的自动获取、平行短语翻译对的抽取。.第一,如何从单语数据中自动地获取翻译词典,是一个非常重要的科学问题。这一问题的解决,对于提升翻译系统的领域适应性具有非常重要的意义。本项目对翻译词典的自动获取这一问题进行了深入的研究和探索。项目组提出了基于分布的无监督翻译词典获取方法、基于点集对齐的无指导翻译词典获取方法、基于核典型相关分析的词典获取方法和基于双语对抗自编码器的无监督翻译词典获取方法。这四种方法的4篇相关论文分别发表在国际重要会议和期刊上(COLING2016、IJCAI2018、IEEE/ACM Transactions),并多次被顶级会议的相关研究论文所引用和介绍。.第二,句法分析对机器翻译系统具有重要的支撑作用。树库资源的不足,是目前中文句法分析器研发面临的一个重要问题。这一问题的解决,对于提升翻译系统的领域适应性具有非常重要的意义。本项目对这一问题进行了深入的研究和探索。项目组提出了一种从海量查询日志中挖掘句法依存关系的方法。实验结果表明,我们的方法利用查询日志有效提升了中文句法分析模型的性能。我们将该方法发表在本领域的重要国际期刊TALLIP上。.第三, 短语翻译对的获取对于提升翻译系统的领域适应性具有非常重要的意义。项目组提出了一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法,并于2017年获得中国国家知识产权局专利授权。.综上,本项目的研究成果对于机器翻译系统的领域自适应和低资源机器翻译系统的研究具有重要的支撑作用。
{{i.achievement_title}}
数据更新时间:2023-05-31
业务过程成批处理配置优化方法
基于贝叶斯统计模型的金属缺陷电磁成像方法研究
人穷还是地穷?空间贫困陷阱的地统计学检验
基于统计学习方法的安徽省安庆市自然资源自动化监测———以山体为例
凸约束非光滑方程组基于自适应线搜索的谱梯度投影算法
串到树统计机器翻译的若干关键技术研究
基于句法结构和篇章结构的统计机器翻译关键技术研究
面向统计机器翻译的适应性学习与应用关键技术研究
基于短语的维汉统计机器翻译关键技术的研究