目前面向工业界尤其是软件本地化领域的统计机器翻译系统仍然无法真正满足实际翻译质量要求,而且无法高效、准确地对翻译错误进行自动识别和评价,也无法提供一种可行、可靠的错误自校正策略,所以大多作为人工翻译的辅助工具。在机器翻译领域,译文质量置信度研究和源语言端翻译难度研究是两个独立的热点研究问题,本申请将其有机地结合在一起,提出具有自诊断和自纠错功能的统计机器翻译方法研究。该研究针对翻译错误自动识别和翻译错误自动校正的关键问题和难点问题,分别提出基于概率潜变量模型的多级置信度估计方法进行低置信错误率的错误识别及置信度估计、基于高质量的复述的词图网络进行翻译错误自校正。该项目中关键技术的攻克,将大大提高机器翻译系统自身错误诊断与校正能力,提供更高效率的人工辅助翻译,不仅在学术上具有重要的理论创新意义,而且具有重要的工业应用指导意义和广阔的企业应用前景。
本项目提出了一种具有翻译错误自诊断与自纠错功能的统计机器翻译方法,主要对翻译错误检测进行了研究,采用间接的方式,即根据机器翻译系统解码所生成的翻译结果,采用机器学习的方法对译文中的错误进行检测并标定其位置,然后根据译文中的目标短语与源语言的词对齐信息建立词序映射关系,从而在源语言端构造复述词图进行重解码以改善机器翻译性能。具体而言,采用词后验概率特征、词汇化特征、句法特征及多特征组合,基于最大熵分类器、SVM分类器、DPLVM分类器及多分类器组合策略对目标语言中的错误进行分类,并利用词对齐信息建立源语言和目标语言的词序映射关系,从而实现错误自诊断与自纠错功能。本项目中关键技术的研究已经完成,发表学术论文8篇,其中EI检索5篇,申请发明专利2件,其中授权1件。培养硕士生5名,其中毕业2名,完成了本项目申报书中的预期目标。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
城市轨道交通车站火灾情况下客流疏散能力评价
面向专利文献的统计机器翻译语境分析
基于图的统计机器翻译方法研究
基于深度句法的统计机器翻译方法研究
面向统计机器翻译的同步短语树结构归约机制研究