面向汉维机器翻译性能优化的关键技术研究

基本信息
批准号:61562081
项目类别:地区科学基金项目
资助金额:40.00
负责人:帕力旦·吐尔逊
学科分类:
依托单位:新疆大学
批准年份:2015
结题年份:2019
起止时间:2016-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:李志军,古丽给娜·达列力汗,热合木·马合木提,塔什甫拉提·尼扎木丁,赛迪亚古丽·艾尼瓦尔,杜娇
关键词:
结构对齐翻译模型词对齐语言模型
结项摘要

This research work take further improvements to the Chinese-Uyghur machine translation system performance as a goal, first of all, dynamically collect the Chinese-Uyghur parallel text corpus from the Internet, and study the disambiguation issues in single part of languages by theoretical and methodological way, and make the named entity recognition and alignment by corpus based parallel processing, so that further improve the quality of parallel corpus. secondly, according to the full morphological features of Uyghur language, on the basis of different units of word and morpheme building the different LM and corresponding translation model, analysis the error patterns in translated texts, send the results to frontend, make the improvements to LM unit selection by considering their language and statistical features, so that increase the BLEU value of MT system, decrease the LM lexicon size, and keep the OOV percent at low level. The clear multilayer morphological structures of the Uyghur language provide a new breakpoint for this research. The proposed idea can be conveniently applied to other agglutinative languages and other NLP domains.

本项目以汉维机器翻系统性能优化为目标,首先动态收集网络媒体中的汉维双语平行语料,研究双语各自语言中排除歧义的理论与方法,利用双语平行处理技术进行命名实体识别与对齐,进一步加工完善汉维平行语料库。其次,根据维吾尔语言本身词形丰富之特性,在基于词(word)和词素(morpheme)两个不同粒度的语言模型和相应的翻译模板情况下,分析机器翻译结果之错误模式(error pattern),并将其结果反馈至前端,在语言模型基元选择上考虑其语言学、统计学等因素,更进一步优化LM语言单元集,达到既要提高BLEU值又要减少LM lexicon size目的,其中可以将OOV保持很低的数量级上。粘着性语言本身具有的各个单元之间清晰的层次化特性为本方法提供了突破点和创新点。本研究在中亚粘着性语言中首次尝试,成功捕捉到了粘着性语言的一些独特特征,本项目技术和成果将在其它粘着性语言NLP研究中具有重要的参考价值。

项目摘要

本项目结合维吾尔文的音节结构特点和形态结构特点,以及这两种结构之间的内在联系,提出了维吾尔文词干提取的一种有效方法,即基于音节层形态特征的词干提取方法。为了进一步优化音节层训练模型的质量,本文在音节语料中加入了能够描述维吾尔文中更多形态特征的五类标记,通过实验得知,对词干提取贡献最大的特征组合为上下文音节特征、名词类单词的“数”特征、“领属性人称”特征和“格”特征等;在成功提取词干的基础上,研究了基于字母的模糊匹配方法和基于音字转换的人名识别方法。其次,以构建维吾尔语-汉语双语对照词典为基础,结合可比语料发现与挖掘技术,设计算法自动地从可比语料中获取句子对齐的维吾尔语-汉语双语数据资源;最后,以目前最先进的神经网络机器翻译技术为基础,深入考察了维吾尔语-汉语翻译的特点和难点,设计优化了相应的翻译模型和语言模型,并将其推广应用到了汉维翻译系统、双语学习系统中,为用户提供了自动的维汉文字信息翻译服务,为我区顺利开展“访惠聚”工作和“双语”的普及作出了积极贡献。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
3

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
4

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

帕力旦·吐尔逊的其他基金

批准号:61063043
批准年份:2010
资助金额:27.00
项目类别:地区科学基金项目

相似国自然基金

1

基于融合策略的汉藏(藏汉)机器翻译关键技术研究

批准号:61662061
批准年份:2016
负责人:才让加
学科分类:F0211
资助金额:41.00
项目类别:地区科学基金项目
2

基于短语的维汉统计机器翻译关键技术的研究

批准号:61063026
批准年份:2010
负责人:吐尔根·依布拉音
学科分类:F0211
资助金额:25.00
项目类别:地区科学基金项目
3

面向农业领域的维汉双语术语抽取的关键技术研究

批准号:61163045
批准年份:2011
负责人:张海军
学科分类:F06
资助金额:49.00
项目类别:地区科学基金项目
4

基于深度语义的汉维机器翻译研究

批准号:61662077
批准年份:2016
负责人:艾山·吾买尔
学科分类:F0211
资助金额:41.00
项目类别:地区科学基金项目