Statistical machine translation (SMT) aims to assign each candidate translation a probability, and outputs the best translation with maximum probability. Currently SMT topics become one of key issues of the fields of natural language processing and even artificial intelligence. Also SMT techniques have been widely used for online translation and domain-limited aided translation applications. In this proposal, we mainly focus on some key issues of tree-based syntax translation models including tree-to-string and tree-to-tree models. Our goal is to learn better knowledge from source parse trees to help syntactic rule extraction and decoding techniques, which in turn improves machine translation performance. The main topics we study in this proposal involve syntactic translation rule extraction, model training, weight tuning, decoding and target tree structure evaluation etc. Finally, we will integrate these techniques into the NiuTrans that is an open-source SMT platform developed our group, and release the NiuTrans to SMT community.
统计机器翻译核心思想是给每个潜在的翻译结果都赋予一定的概率,并选择概率最大的翻译作为最终的翻译结果。统计机器翻译的研究和系统开发已经成为自然语言处理乃至整个人工智能领域的核心问题之一,已经被广泛地应用在在线翻译和受限领域的机器辅助翻译中。本申请课题重点研究基于树的句法翻译模型(包括树到串和树到树模型)的一些关键问题,目的更好利用源语句法结构来改善句法翻译规则抽取和解码搜索技术,最终改善翻译性能。主要研究内容涉及到句法翻译规则抽取、模型训练、特征权重优化、解码搜索和目标语句法结构评价等关键技术,最后计划将集成相关研究成果到实验室研制的开源统计机器翻译系统NiuTrans中,与国内外同行们共享相关研究成果。
针对网络上大量动态变化的多语言信息,完全采用人工翻译是不可想象的,唯一解决方法就是充分利用机器翻译技术进行提供智能自动翻译服务。本课题重点研究句法翻译模型的一些关键技术问题,目的有效改善翻译性能。相关研究成果已经在ACL、Coling、AAAI、ACM/IEEE Transactions和SCI检索的国际杂志上共发表十五篇学术论文。首先提出了基于异构数据的句法分析技术,有效融合多个不同异构树库,提升了中文分词、词类标注、Chunking、NER、依存分析、成分句法分析性能,最后整合各种句法语义分析技术,研制了一套中文句法语义分析系统NiuParser,免费公开给学术界和企业界研究使用,免费共享给来自于20多个国家的500多个高校和企业研究机构下载用于NLP应用研究中。针对句法翻译模型存在的一些关键问题,提出了句法规则抽取优化、句法树节点无指导对齐和句法骨架翻译模型,实验结果显示有效改善句法翻译模型性能。在统计机器翻译系统NiuTrans基础上进一步研制了神经机器翻译系统,最后都整合到NiuTrans系统中,免费发布在小牛翻译开源社区中,已经免费共享给来自于70多个国家的2000多个高校和企业研究机构下载用于机器翻译研究中。NiuTrans系统获得了中国中文信息学会2016年钱伟长中文信息处理科学技术一等奖。项目期间项目负责人指导的十一名硕士研究生和两名博士研究生毕业并获相应学位,还正在指导两名在读硕士生和八名在读博士研究生。项目期间研究小组成员肖桐博士获得一项国家自然科学基金小额资助项目和项目负责人获得一项国家自然科学基金重点项目资助。研究小组利用研究成果与国内一些知名企业包括腾讯和科大讯飞公司建立机器翻译科研合作,取得了良好的经济和社会效益。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
货币政策与汇率制度对国际收支的影响研究
基于树到串藏语句法翻译若干关键技术研究
基于句法结构和篇章结构的统计机器翻译关键技术研究
现代哈萨克语句法分析与树库构建关键技术研究
基于主干成分的句法统计机器翻译模型研究