At present, almost all of the statistical machine translation models are trained based on bilingual corpus. Given enough bitext for a domain, the existing statistical machine translation models can achieve relatively satisfactory translation results. However, the parallel corpus is very difficult to collect, and thus the quality of statistical machine translaiton dramatically decreases when facing a language pair or domain without any bilingual resources. In contrast, each domain of most languages has large-scale monolingual corpus in the web and the monolingual data is easy to obtain. Therefore, this project aims at taking full advantage of the large-scale monolingual data in the web, and propose a phrase-based statistical translation method using only the monolingual corpus. After obtaining the monolingual data in the same domain for source and target language, this project focuses mainly on utilizing only monlingual corpus to study an unsupervised method for constructing a probabilistic bilingual lexicon, a method for learning phrase translation rules and a probability estimation method for translation model and reordering model. Through designing a novel construction process for translation model, this project tries to break through the bottleneck that statistical machine translation must depend on the bilingual data, and makes the statistical machine translation get more extensive development.
目前,几乎所有的统计机器翻译模型都建立在双语平行语料上。给定某一领域足够的双语平行语料,现有的统计机器翻译模型能够获得较为满意的翻译结果。然而,由于现实中双语平行语料很难收集,当面对一个缺乏双语平行语料的语言对或领域时,统计机器翻译质量就会急剧下降。相反地,绝大多数语言的各领域单语语料大量存在于网络之中,且易于获取。因此,本项目旨在充分利用网络中的大规模单语语料,研究并构造面向单语语料的基于短语的统计机器翻译模型。在自动获取源语言和目标语言同一领域的大规模单语语料后,本项目着重研究基于单语语料的概率化双语词典的无监督构建方法、双语短语翻译规则的学习方法以及翻译模型与调序模型的概率估计方法。本项目通过创造性地重新设计翻译模型的构造过程,力图突破双语平行语料对统计机器翻译的限制,使统计翻译得到更加广泛深远的发展。
数据驱动机器翻译模型强烈依赖于双语平行语料的规模与质量,如何突破双语平行语料对机器翻译的限制是本项目的目标。针对该目标,项目组提出并研究了融合双语词典和大规模单语数据的机器翻译方法,源语言和目标语言的短语和句子的语义表示和相似度度量方法,以及融合源语言大规模单语语料的机器翻译模型,并且搭建了实用的多语言机器翻译平台,开放了一套机器翻译源代码。在学术研究方面,发表高水平学术论文9篇,获得国家发明专利2项,培养了4名博士和2名硕士。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
五轴联动机床几何误差一次装卡测量方法
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
引入功能语篇分析的汉英语篇统计机器翻译方法研究
基于主题模型的枢轴语言统计机器翻译研究
基于语段处理的网上英汉机器翻译系统
基于海量语料自然标注信息的汉语自然语块分析