串到树统计机器翻译的若干关键技术研究

基本信息

批准号：61073140

项目类别：面上项目

资助金额：31.00

负责人：朱靖波

学科分类：

依托单位：东北大学

批准年份：2010

结题年份：2013

起止时间：2011-01-01 - 2013-12-31

项目状态：已结题

项目参与者：王会珍,陈文亮,任飞亮,张春良,肖桐,朱慕华,姚树杰,费晓旭,丁海波

关键词：

篇章级翻译句法分析串到树统计机器翻译

结项摘要

统计机器翻译核心思想是给每个潜在的翻译结果都赋予一定的概率，并选择概率最大的翻译作为最终的翻译结果。统计机器翻译的研究和系统开发已经成为自然语言处理乃至整个人工智能领域的核心问题之一，已经被广泛地应用在在线翻译和受限领域的机器辅助翻译中。串到树统计机器翻译是基于句法的统计机器翻译研究的主流框架之一。本申请课题在深入分析目前基于句法统计机器翻译模型研究工作存在的一些问题的基础上，重点研究串到树统计机器翻译的一些关键问题和改进技术。主要研究内容包括：改善现有语言分析平台、弱指导的迭代式词对齐、基于多句法分析器的翻译规则抽取和融合、目标语树结构评价、基于实例约束的解码、篇章级翻译一致性检测等技术。最终集成这些关键技术，构建串到树统计机器翻译开放共享支撑平台。

项目摘要

理论上说，句法翻译模型要比基于词/短语的模型更有能力处理长距离依赖等翻译核心问题，但在翻译文法构建和解码过程中遇到一些实际困难如：１）句法翻译规则抽取过于依赖自动词对齐结果，相对于短语翻译规则抽取来说，句法翻译规则抽取对错误词对齐更加敏感；２）句法分析错误和不同语言之间的句法结构差异性也会造成很多有用规则无法得到有效抽取；３）源语句法结构对解码搜索空间过度限制，对解码性能具有很大影响；４）模型训练阶段中规则抽取、规则打分、特征权重优化等子阶段由于采用不同目标优化函数，与翻译模型最终目标优化函数（如BLEU）具有不一致性，造成潜在的训练优化偏置现象；５）缺乏对句子结构及骨架结构有效的使用等。为了解决上述问题，本申请课题重点研究串到树统计机器翻译的一些关键问题和核心技术，提出了基于主动学习的数据获取、基于异构树库的句法分析优化、基于结构对齐的翻译规则抽取优化、基于Coarse-and-Fine的翻译解码泛化、篇章级翻译一致性处理和基于集成学习的系统融合等。2011年7月发布了统计机器翻译开源系统NiuTrans，目前已经被来自于50多个国家600多个研究机构或个人下载1600多次，免费用于机器翻译研究工作。研究小组将研究成果在自然语言处理国际顶级会议ACL/Coling、ACM/IEEE Transactions和SCI检索源国际杂志上共发表十五篇学术论文，其中包括五篇IEEE/ACM Transactions国际杂志长文、八篇ACL/Coling论文和两篇SCI检索源国际杂志长文。项目执行期间项目负责人培养毕业了两名博士生（肖桐、朱慕华）和七名硕士生，正在指导三名在读博士生和六名在读硕士生。项目期间研究小组（朱靖波、王会珍和肖桐）获得了包括三项国家自然科学基金项目资助，利用研究成果和两家国际知名企业包括日本索尼和香港CIIPS公司建立了语言分析和机器翻译科研合作，取得了良好的经济和社会效益。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.3969/j.issn.1003-0077.2018.11.009

发表时间：2018

DOI：10.16265/j.cnki.issn1003-3033.2019.04.015

发表时间：2019

DOI：10.11897/SP.J.1016.2017.00617

发表时间：2017

DOI：10.19650/j.cnki.cjsi.J1905537

发表时间：2020

DOI：10.11947/j.AGCS.2020.20190222

发表时间：2020

朱靖波的其他基金

批准号：60473140

批准年份：2004

资助金额：23.00

项目类别：面上项目

批准号：61272376

批准年份：2012

资助金额：81.00

项目类别：面上项目

批准号：60873091

批准年份：2008

资助金额：30.00

项目类别：面上项目

批准号：60203019

批准年份：2002

资助金额：30.00

项目类别：联合基金项目

相似国自然基金

基于树到串藏语句法翻译若干关键技术研究

批准号：61363055

批准年份：2013

负责人：华却才让

学科分类：F0211

资助金额：45.00

项目类别：地区科学基金项目

基于格依存树到串模型的日汉机器翻译研究

批准号：61370130

批准年份：2013

负责人：徐金安

学科分类：F0211

资助金额：73.00

项目类别：面上项目

基于汉英双向树串模型的统计机器翻译研究

批准号：60872118

批准年份：2008

负责人：孙广范

学科分类：F0113

资助金额：29.00

项目类别：面上项目

统计机器翻译领域自适应关键技术研究

批准号：61572154

批准年份：2015

负责人：曹海龙

学科分类：F0211

资助金额：62.00

项目类别：面上项目

串到树统计机器翻译的若干关键技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于细粒度词表示的命名实体识别研究

基于FTA-BN模型的页岩气井口装置失效概率分析

基于语义分析的评价对象-情感词对抽取

基于贝叶斯统计模型的金属缺陷电磁成像方法研究

顾及功能语义特征的建筑物空间分布模式识别方法

朱靖波的其他基金

基于内容分析的话题检测和追踪关键技术研究

基于树的句法翻译模型关键技术研究

文本观点倾向性分析和挖掘关键技术研究

基于领域知识的主题分析和文本结构分析技术研究

相似国自然基金