面向汉藏机器翻译的大规模双语语料库构建技术研究

基本信息
批准号:61063033
项目类别:地区科学基金项目
资助金额:33.00
负责人:才让加
学科分类:
依托单位:青海师范大学
批准年份:2010
结题年份:2013
起止时间:2011-01-01 - 2013-12-31
项目状态: 已结题
项目参与者:陈玉忠,扎布,华却才让,才藏太,力毛措,柔特,公保才让,头旦才让,旦正多杰
关键词:
对齐技术汉藏机器翻译汉藏双语语料库编码
结项摘要

双语语料库建设及其自动对齐研究对计算语言学的发展具有重要的意义。目前国内外已建立了各类汉英双语语料库以及服务于汉英机器翻译的双语对齐语料库和短语库。为了少数民族语言的机器翻译的研究从一开始就从较高起点起步,本项目对汉藏双语文本的篇章级、段落级、句子级自动对齐技术进行研究,为开发和研究汉藏机器翻译奠定基础。项目主要研究汉藏双语语料库对齐、汉藏双语词典抽取、双语语料的收集、整理、存储以及检索等关键技术。主要成果是藏文编码的自动识别与转换技术,藏语语料库构建技术、汉藏双语词典抽取技术、汉藏平行语料库句子和词语对齐技术,并建立面向汉藏机器翻译的大规模汉藏双语对齐语料库。

项目摘要

双语语料库建设及其自动对齐研究对计算语言学的发展具有重要的意义。目前国内外已建立了各类汉英双语语料库以及服务于汉英机器翻译的双语对齐语料库和短语库。为了少数民族语言的机器翻译的研究从一开始就从较高起点起步,本项目对汉藏双语文本的篇章级、段落级、句子级自动对齐技术进行研究,为开发和研究汉藏机器翻译奠定基础。项目主要研究内容包括:汉藏双语语料库对齐、汉藏双语词典抽取、双语语料的收集、整理、存储以及检索等关键技术的研究。主要成果有:藏文语料库排版符号、藏文语料库不需要的符号和一些乱码的自动过滤软件的设计与实现、藏文编码的自动识别与转换,藏语语料库构建技术、汉藏双语词典抽取技术、汉藏平行语料库句子和词语对齐技术,并建立了30万句对的面向汉藏机器翻译的大规模汉藏双语语料库和40万词级的汉藏对照词典和13亿字级的藏语单语语料库。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
3

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
4

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

DOI:
发表时间:2020
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

才让加的其他基金

批准号:61662061
批准年份:2016
资助金额:41.00
项目类别:地区科学基金项目

相似国自然基金

1

面向汉维机器翻译的双语对齐语料库和短语库构建技术的研究

批准号:60663006
批准年份:2006
负责人:吐尔根·依布拉音
学科分类:F0211
资助金额:25.00
项目类别:地区科学基金项目
2

基于融合策略的汉藏(藏汉)机器翻译关键技术研究

批准号:61662061
批准年份:2016
负责人:才让加
学科分类:F0211
资助金额:41.00
项目类别:地区科学基金项目
3

汉越双语事件语料库构建及舆情观点挖掘方法研究

批准号:61472168
批准年份:2014
负责人:余正涛
学科分类:F0211
资助金额:84.00
项目类别:面上项目
4

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

批准号:61462055
批准年份:2014
负责人:严馨
学科分类:F0211
资助金额:44.00
项目类别:地区科学基金项目