蒙古文信息处理研究已经经历了三十年的发展,但蒙古语言机器翻译研究刚刚起步。融入语言学知识的汉蒙统计机器翻译研究会对汉蒙两种语言的语言资源建设,知识资源无挖掘和技术资源开发都具有重要的促进作用。这项研究将推动蒙古语言机器翻译研究方法的发展,对汉蒙机器翻译系统的产品化目标迈进一步。统计机器翻译是当前机器翻译乃至自然语言处理领域的研究热点。本课题对汉蒙统计机器翻译研究的基础上,将汉蒙两种语言进行对比研究,结合蒙古语的语言特征,将蒙古语的词法、句法和语义等语言学信息融入到统计模型中,开发出一个融入丰富语言学知识的汉蒙统计机器翻译系统。同时扩大现有语言资源,解决研究开发过程中出现的相关问题。
中国是个多民族的国家,很多少数民族都有自己的语言文字。其中蒙古语是使用人数较多,范围较广的语言之一。与英语和汉语等语言相比,蒙古语机器翻译研究才刚刚起步。本研究主要以基于短语的汉蒙统计机器翻译系统为基准,将汉蒙句法转换规则,蒙古语形态学信息,汉蒙数词量词翻译模式,蒙古文动词生成知识等融入到汉蒙统计机器翻译系统中进行研究和实验,进一步提高了汉蒙统计机器翻译的性能。主要研究内容和结果有以下几个方面: .(1)研究提出了基于蒙古语语序的汉语句子调序方法,解决了基于短语统计机器翻译中出现的大量的语序错误。实验证明这种方法明显提高了现有汉蒙机器翻译系统的性能。.(2)为了研究蒙古语词性和词缀等形态信息对汉蒙统计机器翻译的影响,我们用Morfessor构建了基于词缀库的无监督蒙古语词语切分系统,然后利用要素模型在汉蒙机器翻译中融入蒙古语言形态信息提高了翻译质量。.(3)对于汉语中的数词和量词两种特殊词类, 我们通过规则的方法进行翻译,编写了基于规则的自动翻译程序,应用在汉蒙机器翻译中,提高了翻译系统的性能。.(4)研究实现了蒙古语动词自动生成程序,对于蒙古语译文中出现的句尾以句中形式出现的蒙古语动词进行了修正处理,对基于层次短语的4-gram语言模型的译文上进行了实验,其评测结果显示NIST值和BLEU_SBP值都能够提高,同时译文的可读性有明显的改进。.(5)项目研究中我们扩建了汉蒙双语对齐语料库,包括:新闻领域的4万句对,蒙汉双语词典语料4万短语句对,共计8万短语句对。语料库经过人工校对,符合蒙古文国际标准。.(6)研究开发了汉蒙机器翻译系统、蒙古文词语切分系统、蒙古文内大拉丁转写与国际标准编码转换软件和蒙古语动词自动生成软件。.融入语言学知识的汉蒙统计机器翻译的研究将对汉蒙两种语言的语言资源建设,知识资源挖掘和技术资源的开发都具有重要的促进作用。
{{i.achievement_title}}
数据更新时间:2023-05-31
服务经济时代新动能将由技术和服务共同驱动
卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比
知识产权保护执法力度、技术创新与企业绩效 — 来自中国上市公司的证据
基于关系对齐的汉语虚词抽象语义表示与分析
长三角知识合作网络的空间格局及影响因素———以合著科研论文为例
基于神经网络的蒙汉机器翻译研究
基于中心扩展对齐的汉-英统计机器翻译研究
基于机器翻译的汉-维哈蒙多语种电子病历的研究
基于短语的维汉统计机器翻译关键技术的研究