Currently, the performance of Statistical Machine Translation (SMT) is far from satisfactory for the real application requirements. Computer Aided Translation (CAT) software, which is based on Translation Memory (TM) rather than the SMT, still dominates the professional translation market. However, lots of human post-editing effort is still required for applications. Since the TM, the Example-Based Machine Translation (EBMT) and the SMT complement each other in those matched and unmatched sub-segments, the translation efficiency would be greatly boosted if the Machine Translation (MT) system could be incorporated into the CAT software to relieve human post-editing effort. Therefore, to meet the application requirements, this project aims at integrating TM and EBMT into the SMT system: (1) propose an integrated model which coordinates TM, EBMT and SMT during decoding to take advantage of each approach; (2) propose a domain adaptation method for the proposed integrated model; (3) propose a confidence estimation method for the proposed integrated model. Once the key technology of the project is realized, the translation efficiency will be greatly boosted because much better translation results can be provided by the integrated model. This research is not only important on theory, but it will also greatly promote the application of MT in the professional translation field and has a broad application prospect.
目前统计机器翻译系统的翻译质量还无法真正满足实际翻译要求,基于翻译记忆的计算机辅助翻译软件仍然是专业翻译领域的主流工具,但是它的结果仍然需要大量的人工后编辑才能满足实际应用需求。由于翻译记忆、基于实例的机器翻译方法以及统计机器翻译在不同方面优势互补,如果能够在辅助翻译系统中引入自动机器翻译,替代一部分人工后编辑的工作,将会极大地提高翻译效率。因此,本项目面向辅助翻译应用需求,研究融合翻译记忆、基于实例的机器翻译方法和统计机器翻译模型的多模型融合新方法,主要开展以下研究:1、针对各模型的优缺点,提出在解码过程中协同考虑三种模型的融合辅助翻译方法;2、针对提出的融合模型,研究并验证其领域适应性问题;3、研究适用于该融合模型的译文置信度评估方法。该项目中的关键技术一旦得到攻克,将为翻译人员提供更好的参考译文,从而极大地提高人工翻译效率。该研究不仅具有重要的理论研究意义,而且具有广阔的应用前景。
在项目实施的三年时间内,我们针对统计翻译和翻译记忆的融合问题进行了深入研究。在多模型融合研究方面:(1)我们提出了统计机器翻译和翻译记忆的动态融合方法,在解码过程中进一步地动态加入翻译记忆中新发现的短语对。它在机器翻译解码过程中动态地加入翻译记忆片段作为候选,并利用翻译记忆的相关信息指导基于短语的翻译模型进行解码。(2)针对专业领域翻译的特殊现状,我们提出了使用通用领域的统计机器翻译模型与专业领域的翻译记忆结合方法,在解码过程中利用专业领域的翻译记忆来补充短语翻译候选,同时还使用翻译记忆中挖掘的信息来指导统计机器翻译模型解码。在系统构建方面,我们构建了融合翻译记忆、基于实力的机器翻译模型和基于统计的机器翻译模型的多模型融合辅助翻译系统,圆满完成了项目任务。在论文和专利方面,项目发表了8篇国际和国内重要期刊和会议的学术文章,并申请2项国家发明专利。在研究生培养方面,项目执行三年里,2名同学获得博士学位。
{{i.achievement_title}}
数据更新时间:2023-05-31
高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析
基于卷积神经网络的JPEG图像隐写分析参照图像生成方法
基于小波高阶统计量的数字图像来源取证方法
Fe-Si合金在600℃不同气氛中的腐蚀
融合字符串特征的维吾尔语形态切分
面向辅助翻译的统计机器翻译自诊断和自纠错方法研究
基于用户反馈的多策略翻译在线融合方法研究
融合语言知识与统计模型的机器翻译方法研究
面向动态数据的翻译模型更新方法研究