基于短语的维汉统计机器翻译关键技术的研究

基本信息
批准号:61063026
项目类别:地区科学基金项目
资助金额:25.00
负责人:吐尔根·依布拉音
学科分类:
依托单位:新疆大学
批准年份:2010
结题年份:2013
起止时间:2011-01-01 - 2013-12-31
项目状态: 已结题
项目参与者:阿力木·艾沙,于清,马尔哈巴·艾力,阿孜古丽·夏力甫,阿不都热依木·热合曼,瓦依提·阿不力孜,依布拉音·吾斯曼,张亚军,米日姑·肉孜
关键词:
复杂形态语言机器翻译维汉统计机器翻译
结项摘要

我国是一个统一的多民族国家。民族语言机器翻译的研究对维护我国民族地区的社会稳定和反对分裂活动、加强各民族交流、传承并发展民族文化、民族语言信息化技术的发展等都具有极为重要的意义。维吾尔语是我国使用人口最多的几个少数民族语言之一。维吾尔语属于维吾尔语属阿勒泰语系突厥语族,是一种复杂形态语言,复杂形态语言机器翻译建模是机器翻译研究面临的重要科学问题。本课题将以目前最先进的基于短语的维汉统计机器翻译技术的研究为基础着重研究解决制定维汉词语对齐规范、对数线性模型的维汉词对齐特征选取、非连续词语串中双语短语的抽取、短语相似度中形态信息影响度量等问题。最终目标是建立一个基于混合策略的维汉机器翻译系统。研究可以为将来面对对哈(哈萨克文)汉、乌(乌孜别克文)汉、柯(柯尔克孜)汉、土(土耳其文)汉机器翻译系统的开发打下坚实的基础.

项目摘要

我国是一个统一的多民族国家。民族语言机器翻译的研究对维护我国民族地区的社会稳定和反对分裂活动、加强各民族交流、传承并发展民族文化、民族语言信息化技术的发展等都具有极为重要的意义。维吾尔语属于阿勒泰语系突厥语族,是一种复杂形态语言,复杂形态语言机器翻译建模是机器翻译研究面临的重要科学问题。通过本项目的实施,完成了维汉词语对齐规范的制定,在研究维-汉词和句子对齐技术的基础上开发了维-汉词语对齐工具,研究了维-汉短语抽取方法和短语相似度计算中形态信息影响度量等问题并构建了现代维吾尔语语言资源综合处理平台。借助该平台建立了目前为止不仅在规模而且在覆盖面方面都排在前列的维汉平行语料库,最终建立了一个基于混合策略的维汉短语统计翻译系统。本项目研究过程中,发表了相关论文18篇、获取了软件著作权3项、培养了1名博士、10名硕士、在读博士生2名、在读硕士1名,构建的维文平衡语料库词条总数2332万多,已标注的74万多,维汉对齐平衡语料23万,维汉机读词典13万, 本项目所构建的平行语料库分别为两次全国机器翻译研讨会(CWMT)提供,作为评测项目数据并放在中文语言资源联盟(ChineseLDC),推进了全国在维汉机器翻译研究的进步。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
2

基于分形维数和支持向量机的串联电弧故障诊断方法

基于分形维数和支持向量机的串联电弧故障诊断方法

DOI:
发表时间:2016
3

基于二维材料的自旋-轨道矩研究进展

基于二维材料的自旋-轨道矩研究进展

DOI:10.7498/aps.70.20210004
发表时间:2021
4

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

DOI:10.11999/JEIT210095
发表时间:2021
5

自组装短肽SciobioⅡ对关节软骨损伤修复过程的探究

自组装短肽SciobioⅡ对关节软骨损伤修复过程的探究

DOI:10.13417/j.gab.039.003219
发表时间:2020

吐尔根·依布拉音的其他基金

批准号:61762084
批准年份:2017
资助金额:40.00
项目类别:地区科学基金项目
批准号:60663006
批准年份:2006
资助金额:25.00
项目类别:地区科学基金项目

相似国自然基金

1

基于短语结构转换模板的统计机器翻译方法研究

批准号:60573188
批准年份:2005
负责人:刘群
学科分类:F0211
资助金额:23.00
项目类别:面上项目
2

面向汉维机器翻译的双语对齐语料库和短语库构建技术的研究

批准号:60663006
批准年份:2006
负责人:吐尔根·依布拉音
学科分类:F0211
资助金额:25.00
项目类别:地区科学基金项目
3

基于中心扩展对齐的汉-英统计机器翻译研究

批准号:60903082
批准年份:2009
负责人:张春祥
学科分类:F0211
资助金额:18.00
项目类别:青年科学基金项目
4

基于深度语义的汉维机器翻译研究

批准号:61662077
批准年份:2016
负责人:艾山·吾买尔
学科分类:F0211
资助金额:41.00
项目类别:地区科学基金项目