纳西-汉语双语语料库构建与翻译方法研究

基本信息
批准号:61163022
项目类别:地区科学基金项目
资助金额:49.00
负责人:余正涛
学科分类:
依托单位:昆明理工大学
批准年份:2011
结题年份:2015
起止时间:2012-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:车文刚,高兰,线岩团,张志坤,张磊,赵兴,郭春晓,蒋年树,张辉辉
关键词:
纳西依存句法分析双语电子词典双语句法统计机器翻译双语语料库建设纳西语汉语
结项摘要

纳西文字是目前世界上"唯一活着的象形文字",但在现代文明的渗透下,正在变异和消亡。纳西-汉语双语语料资源构建及纳西语言分析方法是纳西语言信息处理的基础课题。本课题针对纳西语言特点,首先将研究面向纳西-汉语对齐文本的双语词语抽取方法,构建纳西-汉语双语电子词典,其次将研究纳西树库标记及依存关系识别方法,构建纳西依存树库,实现纳西依存句法分析系统,然后将研究纳西-汉语语料选取、标注规范、双语自动词语对齐方法,构建纳西-汉语双语词语级对齐语料库,最后将研究面向依存句法分析的树到串的纳西-汉语统计翻译方法,实现纳西-汉语双语句子互译原型系统,解决纳西-汉语双语知识资源建设、依存句法分析及机器翻译过程中的难点问题。项目研究成果将为机器理解纳西语言提供语言及语料资源,同时提出的纳西-汉语双语机器翻译方法将推动纳西语与汉语的互译互通,为保护、普及及传承纳西语言奠定基础。

项目摘要

纳西语是世界上唯一活着的象形文字,纳西文字信息化及翻译研究对纳西文化的传承和保护有着重要的作用。项目围绕纳西语言信息化过程中的纳西字库制作,纳西-汉语双语词典、纳西依存树库、纳西-汉语双语语料库构建,纳西依存句法分析、纳西-汉语双语词对齐方法及纳西-汉语双语机器翻译等关键问题展开研究和探讨,取得了以下进展:1.收集了4186个纳西象形文字,采用Unicode编码,制作了纳西字库,构建了6891个词的纳西-汉语-英语三语电子词典,研发了中文、英文和纳西拼音三种方式的纳西文字输入法;2.在纳西依存树库构建及依存句法分析方面,提出了基于汉语-纳西语语言对齐关系及协同训练的纳西语依存树库构建方法,制定了纳西依存树库标注规范,构建了3万句的纳西依存树库,研发了规则与统计相结合的纳西依存句法分析器;3.在纳西-汉语双语语料库构建及词对齐方法方面,针对纳西-汉语的语言特点,提出了融合特征约束及实体约束的纳西-汉语双语词语对齐方法,有效提高了纳西-汉语双语词对齐准确率,制定了双语词对齐标注规范,研发了双语词对齐的标注和管理工具,构建了23000句汉语-纳西语词对齐语料库;4.在纳西-汉语双语机器翻译方面,针对纳西-汉语的语法差异,提出了改进的依存树到串、树到树及子树对齐的汉语-纳西语机器翻译方法,针对纳西语言的词义及语义的特点,在统计句法翻译模型的基础上,探讨了融合谓词-论元、词义归纳及语义角色的翻译方法,设计实现了纳西-汉语双语翻译系统,表现了好的效果,为实现纳西-汉语双语学习系统奠定了基础。5.项目发表论文18篇,其中SCI收录3篇,EI收录10篇,受理发明专利1项,授权软件著作权5项,项目负责人通过培养入选中组部首批“万人计划”和国家“百千万人才”,培养博士研究生3名,培养硕士研究生16名,获得省级优秀硕士论文1篇。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

重大工程建设指挥部组织演化进程和研究评述:基于工程项目治理系统的视角

重大工程建设指挥部组织演化进程和研究评述:基于工程项目治理系统的视角

DOI:
发表时间:
2

基于语义分析的评价对象-情感词对抽取

基于语义分析的评价对象-情感词对抽取

DOI:10.11897/SP.J.1016.2017.00617
发表时间:2017
3

基于贝叶斯统计模型的金属缺陷电磁成像方法研究

基于贝叶斯统计模型的金属缺陷电磁成像方法研究

DOI:10.19650/j.cnki.cjsi.J1905537
发表时间:2020
4

融合语义信息的汉老双语句子对其方法

融合语义信息的汉老双语句子对其方法

DOI:
发表时间:
5

日本农业基本建设投资体系的演变、特征及其启示

日本农业基本建设投资体系的演变、特征及其启示

DOI:
发表时间:2017

余正涛的其他基金

批准号:60663004
批准年份:2006
资助金额:7.00
项目类别:地区科学基金项目
批准号:61732005
批准年份:2017
资助金额:295.00
项目类别:重点项目
批准号:61672271
批准年份:2016
资助金额:61.00
项目类别:面上项目
批准号:61472168
批准年份:2014
资助金额:84.00
项目类别:面上项目
批准号:60863011
批准年份:2008
资助金额:29.00
项目类别:地区科学基金项目
批准号:61175068
批准年份:2011
资助金额:57.00
项目类别:面上项目

相似国自然基金

1

基于互联网的汉语-缅语双语平行语料抽取方法及语料库构建

批准号:61662041
批准年份:2016
负责人:毛存礼
学科分类:F0211
资助金额:40.00
项目类别:地区科学基金项目
2

利用双语语料库获取翻译知识的研究

批准号:69672027
批准年份:1996
负责人:周明
学科分类:F0113
资助金额:10.00
项目类别:面上项目
3

面向汉藏机器翻译的大规模双语语料库构建技术研究

批准号:61063033
批准年份:2010
负责人:才让加
学科分类:F0211
资助金额:33.00
项目类别:地区科学基金项目
4

面向汉维机器翻译的双语对齐语料库和短语库构建技术的研究

批准号:60663006
批准年份:2006
负责人:吐尔根·依布拉音
学科分类:F0211
资助金额:25.00
项目类别:地区科学基金项目