基于形态和多词的有限语料蒙汉互译调序优化方法

基本信息
批准号:61502445
项目类别:青年科学基金项目
资助金额:20.00
负责人:陈雷
学科分类:
依托单位:中国科学院合肥物质科学研究院
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:朱泽德,曾伟辉,杨振新,卫林钰,孙凯
关键词:
形态蒙古语有限语料多词表达式调序
结项摘要

Due to significant differences in the morphology and word order between Mongolian and Chinese, the error of the translation word order is one of the major errors in Mongolian-Chinese translation systems. The statistical methods based on the large-scale training corpus cannot achieve ideal reordering results of Mongolian-Chinese translation under the condition that the existing Chinese-Mongolian parallel corpus is extremely limited. .To solve these problems, this project intends to combine linguistic knowledge and statistical methods to mining bilingual knowledge in different sizes of language unit from the limited of Mongolian-Chinese parallel corpus and optimize the reordering model in Mongolian-Chinese translation systems. Much attention will be paid to: 1) Based on a small artificial segmentation corpus, study the integration of supervised and unsupervised methods via feature set augmentation, achieving the semi-supervised morphological segmentation for Mongolian morphological information acquisition; 2) Study on the Multi-word expressions extraction based on morphosyntactic patterns and multiple filters, achieving bilingual multi-word expressions in the limited Mongolian-Chinese parallel corpus; 3) Study on the utilization of morphological information and bilingual multi-word expressions to optimize the reordering model in Mongolian and Chinese translation system, achieving the ordering direction guidance and long distance reordering ability enhancement, and ultimately improving the translation quality. This study will explore how to efficiently mine the bilingual knowledge in limited Mongolian-Chinese corpus to optimize the capabilities of the reordering model, via combining linguistic knowledge and statistical methods, besides providing technical reference for studies on the translation between other under-resourced languages and Chinese.

蒙汉双语存在形态和语序两方面的显著差异,译文语序混乱是蒙汉互译系统的主要错误之一。基于大规模语料进行统计训练的调序方法在目前蒙汉语言资源有限的条件下所取得的效果有限。.针对上述问题,本项目结合语言学知识和统计方法,将在不同语言单位粒度上挖掘有限蒙汉语料所蕴含的双语知识,对蒙汉互译系统的调序进行优化,拟重点开展:1)研究基于小规模人工切分语料,以增强特征模版整合有监督和无监督的方法,实现半监督的切分以获取蒙古语细粒度的形态信息;2)研究基于形态句法结构模式与多重过滤的多词表达式抽取方法,实现在有限蒙汉语料中挖掘粗粒度的双语信息;3)研究分别利用形态信息和多词表达式对蒙汉互译系统的调序进行优化,指导调序方向,增强长距离调序能力,最终提高译文质量。通过以上研究,探索在有限语料条件下结合语言学知识和统计方法高效挖掘双语知识以优化系统调序能力的技术,为我国语言资源有限的民汉机器翻译研究提供技术参考。

项目摘要

本项目针对汉蒙双语的形态和语序差异对机器翻译译文质量造成影响的问题,尤其在目前有限的蒙汉双语语料条件下,开展了以下研究:.第一,半监督的蒙文形态切分方法。首先研究利用基于人工切分标注语料的有监督形态切分来获取恰当的特征集合,再结合不含人工切分标注的语料,根据蒙古语的语言特点,定义增强特征集合,整合有监督、无监督两种切分方法,实现半监督的蒙文形态切分,最后利用半监督的形态切分方法获取有限语料中蒙文的形态信息,实现高效的蒙文形态切分,切分准确率最高达到97.9%;.第二,双语多词表达式抽取方法。对于先对齐后抽取的方法,首先寻找统计信息过滤与语言知识过滤方法的最佳组合与迭代次数,以便进一步完善双语多词表达式抽取效果;对于先抽取后对齐的方法,继续结合蒙古语语言学知识,探讨蒙古语的形态句法结构模式,深入研究在抽取后如何完成双语多词表达式的对齐。提出了适用于有限语料条件下的蒙汉双语多词表达式抽取方法;.第三,融合形态信息与多词表达式的翻译系统构建。首先设计合理的实验方案,以人工和自动两种方式对比分析两种多词表达式抽取方法的优劣,再探索两种多词表达式抽取方法各自以不同方式应用于蒙汉互译系统的效果,以实际的实验结果来寻找抽取方法与应用方法的最佳结合点,最后开展了综合利用形态信息与多词表达式的系统性实验,提出了在有限语料条件下提高蒙汉互译系统译文质量的方法,最高提高了译文质量1.54个BLEU值。.以上理论技术与方法模型,可为我国资源稀缺的民族语言有关的机器翻译系统构建研究提供借鉴与参考。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
2

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015
3

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
4

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

DOI:10.3969/j.issn.1002-0268.2020.03.007
发表时间:2020
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

陈雷的其他基金

批准号:51101136
批准年份:2011
资助金额:25.00
项目类别:青年科学基金项目
批准号:61401307
批准年份:2014
资助金额:24.00
项目类别:青年科学基金项目
批准号:51878316
批准年份:2018
资助金额:61.00
项目类别:面上项目
批准号:51409158
批准年份:2014
资助金额:26.00
项目类别:青年科学基金项目
批准号:31300009
批准年份:2013
资助金额:23.00
项目类别:青年科学基金项目
批准号:41202056
批准年份:2012
资助金额:25.00
项目类别:青年科学基金项目
批准号:51704319
批准年份:2017
资助金额:25.00
项目类别:青年科学基金项目
批准号:21875058
批准年份:2018
资助金额:65.00
项目类别:面上项目
批准号:71903202
批准年份:2019
资助金额:19.00
项目类别:青年科学基金项目
批准号:31771677
批准年份:2017
资助金额:62.00
项目类别:面上项目
批准号:51675467
批准年份:2016
资助金额:62.00
项目类别:面上项目
批准号:41872092
批准年份:2018
资助金额:66.00
项目类别:面上项目
批准号:31600449
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:41602147
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:41502019
批准年份:2015
资助金额:22.00
项目类别:青年科学基金项目
批准号:U1332133
批准年份:2013
资助金额:70.00
项目类别:联合基金项目
批准号:31870833
批准年份:2018
资助金额:59.00
项目类别:面上项目
批准号:10804122
批准年份:2008
资助金额:24.00
项目类别:青年科学基金项目
批准号:51002043
批准年份:2010
资助金额:20.00
项目类别:青年科学基金项目
批准号:81701218
批准年份:2017
资助金额:20.00
项目类别:青年科学基金项目
批准号:31701520
批准年份:2017
资助金额:26.00
项目类别:青年科学基金项目
批准号:51405355
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目

相似国自然基金

1

汉越双语语料库建设及词对齐方法研究

批准号:61262041
批准年份:2012
负责人:郭剑毅
学科分类:F0211
资助金额:43.00
项目类别:地区科学基金项目
2

面向可比语料的汉越神经机器翻译方法研究

批准号:61761026
批准年份:2017
负责人:高盛祥
学科分类:F0113
资助金额:37.00
项目类别:地区科学基金项目
3

蒙汉双语网络挖掘层次关联分析方法研究

批准号:61572462
批准年份:2015
负责人:李淼
学科分类:F0211
资助金额:64.00
项目类别:面上项目
4

老挝语词法分析及老-汉双语平行语料抽取方法研究

批准号:61662040
批准年份:2016
负责人:周兰江
学科分类:F0211
资助金额:39.00
项目类别:地区科学基金项目