With the increasing demand for information exchange and the need of stable national ethnic areas, the research and application of Mongolian-Chinese machine translation is imminent. The study of Mongolian-Chinese machine translation have great significance to promote the informationization of Inner Mongolia Autonomous Region and facilitate the social progress and economic development of the autonomous region, prosper and develop the cultural and educational cause of ethnic minorities and progress of science and technology..Neural machine translation directly achieve the natural language mapping with the neural network. Neural machine translation has made rapid development in recent years and is expected to replace the statistical machine translation into a new mainstream technology. In this research, we expand the bilingual corpus of Mongolian and Chinese, construct the word embedding of Mongolian-Chinese translation, carry out the study of Mongolian-Chinese translation based on morpheme, character and word-character under the framework of end-to-end neural network model,propose a neural translation model which is suitable for Mongolian and Chinese translation.For the Mongolian and Chinese machine translation, considering the characteristics of Mongolian language and the latest method of machine translation, the study of Mongolian-Chinese machine translation based on neural network is a new topic.
随着信息交流需求的增加及国家民族地区稳定的需求,蒙汉机器翻译的研究及应用迫在眉睫。蒙汉机器翻译的研究对推动内蒙古自治区的信息化,对促进自治区的社会进步和经济发展、繁荣和发展少数民族文化教育事业和科技进步有着重要的积极意义。. 神经机器翻译是通过神经网络直接实现自然语言的相互映射。 神经机器翻译近年来取得迅速发展,有望取代统计机器翻译成为新的主流技术。本研究扩建蒙汉双语语料库,在端到端的神经网络模型框架下,构建蒙汉翻译的词向量,开展基于词素、基于字符和基于字符词混合的蒙汉神经翻译研究,提出适合蒙汉翻译的神经翻译模型。对于蒙汉机器翻译而言,针对蒙古语言自身特征,结合机器翻译的最新方法开展基于神经网络的蒙汉机器翻译研究是一个全新的课题。
项目采用机器翻译和人工校对相结合的方法,构建了蒙汉翻译双语平行语料库8万句,地名和机构名蒙汉双语词典4万条。搭建了基于注意力的蒙汉神经机器翻译系统和基于Transformer的蒙汉机器翻译系统。针对蒙汉神经机器翻译中的有限词典问题和蒙古文的数据稀疏问题,对蒙古文进行了切分。实验表明把蒙古文词干和构形附加成分等形态信息融入到蒙汉神经机器翻译后可以改善系统性能,基于词素的蒙汉神经机器翻译模型优于基于词的模型。.在蒙古文词切分方面,提出了基于BiLSTM-CNN-CRF模型的神经网络蒙古文词切分方法。研究了部分切分、BPE子词切分和神经网络切分方法等不同的蒙古文词切分方法对基于Transformer蒙汉机器翻译的影响。研究表明,经过对神经网络词切分后的蒙古文语料,过滤掉蒙古文连接元音字母和不稳定“N”后,基于神经网络的蒙古文词切分方法在蒙汉神经机器翻译的性能比BPE切分和部分切分的性能好。.针对蒙汉神经机器翻译的未登录词问题,我们采取基于语义相似度的未登录词替换、基于语言模型的未登录词替换和基于蒙汉对齐词典的未登录词替换方法等三种方法进行了研究。实验表明基于语义相似度的未登录词替换策略能有效提高基于transformer的蒙汉神经机器翻译的翻译性能。而基于蒙汉词典的未登录词替换方法在基于注意力的蒙汉神经机器翻译系统上的表现较好。.为了提高蒙汉机器翻译的实体识别和翻译质量,研究了基于词向量的Bi-LSTM-CRF的蒙古文命名实体识别模型。实验结果表明采用Skip-gram模型训练蒙古文词向量作为Bi-LSTM-CRF模型输入时,模型性能较好。但是由于实体标注语料规模较少,模型性能有待于进一步提高。.针对蒙汉双语训练语料库不足问题,研究了单语数据在蒙汉神经机器翻译中的应用。我们提出了基于BERT数据增强的蒙汉神经机器翻译方,此方法可以缓解蒙汉神经机器翻译任务中平行语料库稀缺问题。同时,研究了反向翻译方法对蒙汉神经机器翻译的影响,实验表明基于蒙汉训练语料库目标语反向翻译的方法可以提高蒙汉神经机器翻译的性能。.项目围绕着蒙汉神经机器翻译,从语料库建设,蒙古文词切分方法,未登录词处理方法,命名实体识别方法和单语数据应用方法等方面展开了系统的研究,取得了一定的成果,对蒙古文信息处理研究具有一定的促进作用。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于LASSO-SVMR模型城市生活需水量的预测
基于分形维数和支持向量机的串联电弧故障诊断方法
湖北某地新生儿神经管畸形的病例对照研究
动物响应亚磁场的生化和分子机制
多源数据驱动CNN-GRU模型的公交客流量分类预测
基于机器翻译的汉-维哈蒙多语种电子病历的研究
融入语言学知识的汉蒙统计机器翻译研究
基于深度语义的汉维机器翻译研究
基于融合策略的汉藏(藏汉)机器翻译关键技术研究