统计机器翻译核心思想是给每个潜在的翻译结果都赋予一定的概率,并选择概率最大的翻译作为最终的翻译结果。统计机器翻译的研究和系统开发已经成为自然语言处理乃至整个人工智能领域的核心问题之一,已经被广泛地应用在在线翻译和受限领域的机器辅助翻译中。串到树统计机器翻译是基于句法的统计机器翻译研究的主流框架之一。本申请课题在深入分析目前基于句法统计机器翻译模型研究工作存在的一些问题的基础上,重点研究串到树统计机器翻译的一些关键问题和改进技术。主要研究内容包括:改善现有语言分析平台、弱指导的迭代式词对齐、基于多句法分析器的翻译规则抽取和融合、目标语树结构评价、基于实例约束的解码、篇章级翻译一致性检测等技术。最终集成这些关键技术,构建串到树统计机器翻译开放共享支撑平台。
理论上说,句法翻译模型要比基于词/短语的模型更有能力处理长距离依赖等翻译核心问题,但在翻译文法构建和解码过程中遇到一些实际困难如:1)句法翻译规则抽取过于依赖自动词对齐结果,相对于短语翻译规则抽取来说,句法翻译规则抽取对错误词对齐更加敏感;2)句法分析错误和不同语言之间的句法结构差异性也会造成很多有用规则无法得到有效抽取;3)源语句法结构对解码搜索空间过度限制,对解码性能具有很大影响;4)模型训练阶段中规则抽取、规则打分、特征权重优化等子阶段由于采用不同目标优化函数,与翻译模型最终目标优化函数(如BLEU)具有不一致性,造成潜在的训练优化偏置现象;5)缺乏对句子结构及骨架结构有效的使用等。为了解决上述问题,本申请课题重点研究串到树统计机器翻译的一些关键问题和核心技术,提出了基于主动学习的数据获取、基于异构树库的句法分析优化、基于结构对齐的翻译规则抽取优化、基于Coarse-and-Fine的翻译解码泛化、篇章级翻译一致性处理和基于集成学习的系统融合等。2011年7月发布了统计机器翻译开源系统NiuTrans,目前已经被来自于50多个国家600多个研究机构或个人下载1600多次,免费用于机器翻译研究工作。研究小组将研究成果在自然语言处理国际顶级会议ACL/Coling、ACM/IEEE Transactions和SCI检索源国际杂志上共发表十五篇学术论文,其中包括五篇IEEE/ACM Transactions国际杂志长文、八篇ACL/Coling论文和两篇SCI检索源国际杂志长文。项目执行期间项目负责人培养毕业了两名博士生(肖桐、朱慕华)和七名硕士生,正在指导三名在读博士生和六名在读硕士生。项目期间研究小组(朱靖波、王会珍和肖桐)获得了包括三项国家自然科学基金项目资助,利用研究成果和两家国际知名企业包括日本索尼和香港CIIPS公司建立了语言分析和机器翻译科研合作,取得了良好的经济和社会效益。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于细粒度词表示的命名实体识别研究
基于FTA-BN模型的页岩气井口装置失效概率分析
基于语义分析的评价对象-情感词对抽取
基于贝叶斯统计模型的金属缺陷电磁成像方法研究
顾及功能语义特征的建筑物空间分布模式识别方法
基于树到串藏语句法翻译若干关键技术研究
基于格依存树到串模型的日汉机器翻译研究
基于汉英双向树串模型的统计机器翻译研究
统计机器翻译领域自适应关键技术研究