面向辅助翻译的统计机器翻译自诊断和自纠错方法研究

基本信息

批准号：61100085

项目类别：青年科学基金项目

资助金额：23.00

负责人：杜金华

学科分类：

依托单位：西安理工大学

批准年份：2011

结题年份：2014

起止时间：2012-01-01 - 2014-12-31

项目状态：已结题

项目参与者：梁炎明,高异,辛菁,张捷,马利芬,刘阳,王耀民

关键词：

错误自诊断复述词图网络解码自纠错译文置信度估计概率潜变量模型

结项摘要

目前面向工业界尤其是软件本地化领域的统计机器翻译系统仍然无法真正满足实际翻译质量要求，而且无法高效、准确地对翻译错误进行自动识别和评价，也无法提供一种可行、可靠的错误自校正策略，所以大多作为人工翻译的辅助工具。在机器翻译领域，译文质量置信度研究和源语言端翻译难度研究是两个独立的热点研究问题，本申请将其有机地结合在一起，提出具有自诊断和自纠错功能的统计机器翻译方法研究。该研究针对翻译错误自动识别和翻译错误自动校正的关键问题和难点问题，分别提出基于概率潜变量模型的多级置信度估计方法进行低置信错误率的错误识别及置信度估计、基于高质量的复述的词图网络进行翻译错误自校正。该项目中关键技术的攻克，将大大提高机器翻译系统自身错误诊断与校正能力，提供更高效率的人工辅助翻译，不仅在学术上具有重要的理论创新意义，而且具有重要的工业应用指导意义和广阔的企业应用前景。

项目摘要

本项目提出了一种具有翻译错误自诊断与自纠错功能的统计机器翻译方法，主要对翻译错误检测进行了研究，采用间接的方式，即根据机器翻译系统解码所生成的翻译结果，采用机器学习的方法对译文中的错误进行检测并标定其位置，然后根据译文中的目标短语与源语言的词对齐信息建立词序映射关系，从而在源语言端构造复述词图进行重解码以改善机器翻译性能。具体而言，采用词后验概率特征、词汇化特征、句法特征及多特征组合，基于最大熵分类器、SVM分类器、DPLVM分类器及多分类器组合策略对目标语言中的错误进行分类，并利用词对齐信息建立源语言和目标语言的词序映射关系，从而实现错误自诊断与自纠错功能。本项目中关键技术的研究已经完成，发表学术论文8篇，其中EI检索5篇，申请发明专利2件，其中授权1件。培养硕士生5名，其中毕业2名，完成了本项目申报书中的预期目标。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：

发表时间：

DOI：

发表时间：2020

DOI：10.11842/wst.20190724002

发表时间：2020

DOI：10.16383/j.aas.c180673

发表时间：2021

杜金华的其他基金

批准号：31271927

批准年份：2012

资助金额：80.00

项目类别：面上项目

相似国自然基金

面向专利文献的统计机器翻译语境分析

批准号：61303152

批准年份：2013

负责人：何彦青

学科分类：F0211

资助金额：22.00

项目类别：青年科学基金项目

基于图的统计机器翻译方法研究

批准号：61003111

批准年份：2010

负责人：巢文涵

学科分类：F0211

资助金额：7.00

项目类别：青年科学基金项目

基于深度句法的统计机器翻译方法研究

批准号：61672138

批准年份：2016

负责人：肖桐

学科分类：F0211

资助金额：16.00

项目类别：面上项目

面向统计机器翻译的同步短语树结构归约机制研究

批准号：61273319

批准年份：2012

负责人：段湘煜

学科分类：F0606

资助金额：80.00

项目类别：面上项目

面向辅助翻译的统计机器翻译自诊断和自纠错方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

一种基于多层设计空间缩减策略的近似高维优化方法

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于多色集合理论的医院异常工作流处理建模

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

二维FM系统的同时故障检测与控制

杜金华的其他基金

小麦芽水溶性阿拉伯木聚糖分子结构特征及其在啤酒界面扩张特性中的作用机理

相似国自然基金