面向资源稀缺型语言的机器翻译理论方法及关键技术研究

基本信息
批准号:61732005
项目类别:重点项目
资助金额:295.00
负责人:余正涛
学科分类:
依托单位:昆明理工大学
批准年份:2017
结题年份:2022
起止时间:2018-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:黄河燕,朱靖波,线岩团,史树敏,张春良,高盛祥,张俐,鉴萍,毛存礼
关键词:
资源稀缺语言神经机器翻译多层次知识融合机器翻译多语言协同
结项摘要

Machine Translation is one of the priority research areas in National Medium and Long-term Scientific and Technological Development Plan In the last decade, Machine Translation has witnessed great progress in several translation tasks of resource-rich languages, but translation between resource-poor languages is still difficult due to its inherent dependence to parallel resource. This proposal plan to research on the Machine Translation between resource-poor languages, and the focuses are: 1) Oriented to resource-poor languages, research on the representation theory and learning approaches of Machine Translation knowledge, and integrating different resource characteristics, propose the approaches to distribution representation learning of monolingual knowledge and cross-language translation knowledge; 2) Research on the Machine Translation models for resource-poor languages, propose the Neural Machine Translation framework based on multi-encoder and multi-decoder, integrate multi-level monolingual and bilingual translation knowledge, and achieve multilingual collaborative translation by using different resources; 3) Working on corpus acquiring of resource-poor languages and development of the Machine Translation platform and system oriented to Southeast Asian languages (Vietnamese, Lao, Burmese, Cambodian, Thai, etc.). This proposal has important implications for advancing the research of natural language processing and artificial intelligence, serves for the Belt and Road Initiatives, and simultaneously has important practical value in cooperation and communication between China and Southeast Asian countries.

机器翻译符合国家中长期科技发展规划。虽然近十年机器翻译在资源丰富语言间取得了长足进步,但由于对语言对齐资源的高度依赖,资源稀缺语言的机器翻译依然举步维艰。鉴于此,项目将针对资源稀缺语言机器翻译开展深入研究:1)研究面向资源稀缺语言的翻译知识表示理论及表示学习方法,结合不同语料特点,提出单语知识分布表示学习及跨语言翻译知识学习方法;2)研究面向资源稀缺型语言的翻译方法,提出基于多编码-多解码机制的神经机器翻译框架,融合多层次单语知识及跨语言翻译知识,有效利用不同资源实现多语言协同翻译;3)研究面向资源稀缺型语言的语料资源获取及翻译平台构建,研发面向东南亚语言的机器翻译原型系统。项目对推动自然语言处理及人工智能学科发展具有重要的科学意义,符合国家“一带一路”战略,对推动与东南亚国家的合作交流具有重要的应用价值。

项目摘要

近几年神经机器翻译取得了令人瞩目的突破,但资源稀缺语言翻译还面临双语资源稀缺、翻译模型学习不充分等难题,翻译性能还不理想。项目以东南亚语言为主要研究对象,围绕翻译语料库构建及语言解析、知识表示与学习、机器翻译模型构建等开展研究,取得了积极进展:1.在翻译语料库构建方面,提出了基于多源数据及语言知识挖掘的双语词典及平行句对自动构建技术,构建了当前最大规模的东南亚语言翻译语料库;2.在语言解析方面,提出了融合多粒度特征和跨语言知识的东南亚语言分句、分词、实体识别及句法解析方法,研发了东南亚语言解析平台;3.在语言知识表示与学习方面,提出了面向资源稀缺语言的跨语言预训练、多层知识表示融合等方法,有效提升了翻译模型对语言知识的表示和学习能力;4.在机器翻译模型架构方面,提出了基于深度Transformer的翻译建模、基于网络结构搜索的模型自动优化、深层网络训练和基于参数共享和知识蒸馏的模型压缩等系列方法,从模型结构设计、模型训练和模型部署等方面提出了适合资源稀缺语言的模型架构和解决方案,显著提升了资源稀缺语言机器翻译性能;5.在先验知识融合方面,提出了融合分类词典、多粒度词法、句法等知识的翻译方法,解决了连续向量表示的神经机器翻译模型与概率化离散表示的翻译知识融合困难的问题;6.在多语言协同和多模态信息融合方面,提出了基于语义空间映射的多语言翻译、噪声鲁棒的跨模态交互学习等系列方法,通过对富资源语言对及语音图像等信息的充分利用,有效缓解了翻译模型对平行数据的过渡依赖问题。7.研发了云岭翻译和小牛翻译,支持300多个语种的机器翻译,在WMT翻译评测中,共取得了10次第一,7次第二和8次第三名的优异成绩。相关成果在国家安全、公众服务、疫情防控、国际交流合作等方面得到了广泛应用,日均翻译量超5亿字符,经济社会效益显著。项目发表论文93篇,其中CCF A/B类论文29篇,SCI/EI收录70篇,授权发明专利23项,受理发明专利35项,登记软件著作权13项,出版专著1部,承办国际国内学术会议7次,参加国际国内学术会议400余人次。获得国家及省级人才称号17人次,培养博士21人、硕士114人、获得省级优秀硕士论文7篇。项目还获得云南省科技进步特等奖1项和自然科学三等奖1项。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

黄河流域水资源利用时空演变特征及驱动要素

黄河流域水资源利用时空演变特征及驱动要素

DOI:10.18402/resci.2020.12.01
发表时间:2020
2

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
3

服务经济时代新动能将由技术和服务共同驱动

服务经济时代新动能将由技术和服务共同驱动

DOI:10.19474/j.cnki.10-1156/f.001172
发表时间:2017
4

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
5

湖北某地新生儿神经管畸形的病例对照研究

湖北某地新生儿神经管畸形的病例对照研究

DOI:
发表时间:2019

余正涛的其他基金

批准号:60663004
批准年份:2006
资助金额:7.00
项目类别:地区科学基金项目
批准号:61163022
批准年份:2011
资助金额:49.00
项目类别:地区科学基金项目
批准号:61672271
批准年份:2016
资助金额:61.00
项目类别:面上项目
批准号:61472168
批准年份:2014
资助金额:84.00
项目类别:面上项目
批准号:60863011
批准年份:2008
资助金额:29.00
项目类别:地区科学基金项目
批准号:61175068
批准年份:2011
资助金额:57.00
项目类别:面上项目

相似国自然基金

1

面向低资源语言神经网络机器翻译的知识迁移方法研究

批准号:61906158
批准年份:2019
负责人:米成刚
学科分类:F0606
资助金额:24.00
项目类别:青年科学基金项目
2

面向低资源语言机器翻译的跨语言语境化向量表示与迁移研究

批准号:61902024
批准年份:2019
负责人:李洪政
学科分类:F0211
资助金额:27.00
项目类别:青年科学基金项目
3

面向互动语言场景的类量子语言模型关键理论和技术研究

批准号:61772363
批准年份:2017
负责人:张鹏
学科分类:F0211
资助金额:61.00
项目类别:面上项目
4

面向科技文献的机器翻译关键技术研究

批准号:60873167
批准年份:2008
负责人:吕雅娟
学科分类:F0211
资助金额:30.00
项目类别:面上项目