基于神经网络的蒙汉机器翻译研究

基本信息

批准号：61762072

项目类别：地区科学基金项目

资助金额：38.00

负责人：王斯日古楞

学科分类：

依托单位：内蒙古师范大学

批准年份：2017

结题年份：2021

起止时间：2018-01-01 - 2021-12-31

项目状态：已结题

项目参与者：哈斯,斯琴图,松云,朝力萌,宝美荣,乌云塔那,哈斯高娃,安苏艺拉

关键词：

形态丰富语言神经机器翻译词向量蒙汉

结项摘要

With the increasing demand for information exchange and the need of stable national ethnic areas, the research and application of Mongolian-Chinese machine translation is imminent. The study of Mongolian-Chinese machine translation have great significance to promote the informationization of Inner Mongolia Autonomous Region and facilitate the social progress and economic development of the autonomous region, prosper and develop the cultural and educational cause of ethnic minorities and progress of science and technology..Neural machine translation directly achieve the natural language mapping with the neural network. Neural machine translation has made rapid development in recent years and is expected to replace the statistical machine translation into a new mainstream technology. In this research, we expand the bilingual corpus of Mongolian and Chinese, construct the word embedding of Mongolian-Chinese translation, carry out the study of Mongolian-Chinese translation based on morpheme, character and word-character under the framework of end-to-end neural network model,propose a neural translation model which is suitable for Mongolian and Chinese translation.For the Mongolian and Chinese machine translation, considering the characteristics of Mongolian language and the latest method of machine translation, the study of Mongolian-Chinese machine translation based on neural network is a new topic.

随着信息交流需求的增加及国家民族地区稳定的需求，蒙汉机器翻译的研究及应用迫在眉睫。蒙汉机器翻译的研究对推动内蒙古自治区的信息化，对促进自治区的社会进步和经济发展、繁荣和发展少数民族文化教育事业和科技进步有着重要的积极意义。. 神经机器翻译是通过神经网络直接实现自然语言的相互映射。神经机器翻译近年来取得迅速发展，有望取代统计机器翻译成为新的主流技术。本研究扩建蒙汉双语语料库，在端到端的神经网络模型框架下，构建蒙汉翻译的词向量，开展基于词素、基于字符和基于字符词混合的蒙汉神经翻译研究，提出适合蒙汉翻译的神经翻译模型。对于蒙汉机器翻译而言，针对蒙古语言自身特征，结合机器翻译的最新方法开展基于神经网络的蒙汉机器翻译研究是一个全新的课题。

项目摘要

项目采用机器翻译和人工校对相结合的方法，构建了蒙汉翻译双语平行语料库8万句，地名和机构名蒙汉双语词典4万条。搭建了基于注意力的蒙汉神经机器翻译系统和基于Transformer的蒙汉机器翻译系统。针对蒙汉神经机器翻译中的有限词典问题和蒙古文的数据稀疏问题，对蒙古文进行了切分。实验表明把蒙古文词干和构形附加成分等形态信息融入到蒙汉神经机器翻译后可以改善系统性能，基于词素的蒙汉神经机器翻译模型优于基于词的模型。.在蒙古文词切分方面，提出了基于BiLSTM-CNN-CRF模型的神经网络蒙古文词切分方法。研究了部分切分、BPE子词切分和神经网络切分方法等不同的蒙古文词切分方法对基于Transformer蒙汉机器翻译的影响。研究表明，经过对神经网络词切分后的蒙古文语料，过滤掉蒙古文连接元音字母和不稳定“N”后，基于神经网络的蒙古文词切分方法在蒙汉神经机器翻译的性能比BPE切分和部分切分的性能好。.针对蒙汉神经机器翻译的未登录词问题，我们采取基于语义相似度的未登录词替换、基于语言模型的未登录词替换和基于蒙汉对齐词典的未登录词替换方法等三种方法进行了研究。实验表明基于语义相似度的未登录词替换策略能有效提高基于transformer的蒙汉神经机器翻译的翻译性能。而基于蒙汉词典的未登录词替换方法在基于注意力的蒙汉神经机器翻译系统上的表现较好。.为了提高蒙汉机器翻译的实体识别和翻译质量，研究了基于词向量的Bi-LSTM-CRF的蒙古文命名实体识别模型。实验结果表明采用Skip-gram模型训练蒙古文词向量作为Bi-LSTM-CRF模型输入时，模型性能较好。但是由于实体标注语料规模较少，模型性能有待于进一步提高。.针对蒙汉双语训练语料库不足问题，研究了单语数据在蒙汉神经机器翻译中的应用。我们提出了基于BERT数据增强的蒙汉神经机器翻译方，此方法可以缓解蒙汉神经机器翻译任务中平行语料库稀缺问题。同时，研究了反向翻译方法对蒙汉神经机器翻译的影响，实验表明基于蒙汉训练语料库目标语反向翻译的方法可以提高蒙汉神经机器翻译的性能。.项目围绕着蒙汉神经机器翻译，从语料库建设，蒙古文词切分方法，未登录词处理方法，命名实体识别方法和单语数据应用方法等方面展开了系统的研究，取得了一定的成果，对蒙古文信息处理研究具有一定的促进作用。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.13210/j.cnki.jhmu.20190508.001

发表时间：2019

DOI：

发表时间：

DOI：

发表时间：2018

DOI：

发表时间：2018

DOI：10.3969/j.issn.1674-0696.2020.10.20

发表时间：2020

王斯日古楞的其他基金

批准号：61063014

批准年份：2010

资助金额：28.00

项目类别：地区科学基金项目

相似国自然基金

基于机器翻译的汉-维哈蒙多语种电子病历的研究

批准号：61163030

批准年份：2011

负责人：达瓦·伊德木草

学科分类：F0211

资助金额：51.00

项目类别：地区科学基金项目

融入语言学知识的汉蒙统计机器翻译研究

批准号：61063014

批准年份：2010

负责人：王斯日古楞

学科分类：F0211

资助金额：28.00

项目类别：地区科学基金项目

基于深度语义的汉维机器翻译研究

批准号：61662077

批准年份：2016

负责人：艾山·吾买尔

学科分类：F0211

资助金额：41.00

项目类别：地区科学基金项目

基于融合策略的汉藏（藏汉）机器翻译关键技术研究

批准号：61662061

批准年份：2016

负责人：才让加

学科分类：F0211

资助金额：41.00

项目类别：地区科学基金项目

基于神经网络的蒙汉机器翻译研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

病毒性脑炎患儿脑电图、神经功能、免疫功能及相关因子水平检测与意义

妊娠对雌性大鼠冷防御性肩胛间区棕色脂肪组织产热的影响及其机制

神经退行性疾病发病机制的研究进展

长白山苔原带土壤温度与肥力随海拔的变化特征

含饱和非线性的主动悬架系统自适应控制

王斯日古楞的其他基金

融入语言学知识的汉蒙统计机器翻译研究

相似国自然基金