面向辅助翻译的多模型融合方法研究

基本信息

批准号：61402478

项目类别：青年科学基金项目

资助金额：26.00

负责人：汪昆

学科分类：

依托单位：中国科学院自动化研究所

批准年份：2014

结题年份：2017

起止时间：2015-01-01 - 2017-12-31

项目状态：已结题

项目参与者：吴惠甲,刘洋,杜倩龙,黄国平,何秋香,赵文榜

关键词：

基于实例的机器翻译计算机辅助翻译统计机器翻译自然语言处理译文置信度估计

结项摘要

Currently, the performance of Statistical Machine Translation (SMT) is far from satisfactory for the real application requirements. Computer Aided Translation (CAT) software, which is based on Translation Memory (TM) rather than the SMT, still dominates the professional translation market. However, lots of human post-editing effort is still required for applications. Since the TM, the Example-Based Machine Translation (EBMT) and the SMT complement each other in those matched and unmatched sub-segments, the translation efficiency would be greatly boosted if the Machine Translation (MT) system could be incorporated into the CAT software to relieve human post-editing effort. Therefore, to meet the application requirements, this project aims at integrating TM and EBMT into the SMT system: (1) propose an integrated model which coordinates TM, EBMT and SMT during decoding to take advantage of each approach; (2) propose a domain adaptation method for the proposed integrated model; (3) propose a confidence estimation method for the proposed integrated model. Once the key technology of the project is realized, the translation efficiency will be greatly boosted because much better translation results can be provided by the integrated model. This research is not only important on theory, but it will also greatly promote the application of MT in the professional translation field and has a broad application prospect.

目前统计机器翻译系统的翻译质量还无法真正满足实际翻译要求，基于翻译记忆的计算机辅助翻译软件仍然是专业翻译领域的主流工具，但是它的结果仍然需要大量的人工后编辑才能满足实际应用需求。由于翻译记忆、基于实例的机器翻译方法以及统计机器翻译在不同方面优势互补，如果能够在辅助翻译系统中引入自动机器翻译，替代一部分人工后编辑的工作，将会极大地提高翻译效率。因此，本项目面向辅助翻译应用需求，研究融合翻译记忆、基于实例的机器翻译方法和统计机器翻译模型的多模型融合新方法，主要开展以下研究：1、针对各模型的优缺点，提出在解码过程中协同考虑三种模型的融合辅助翻译方法；2、针对提出的融合模型，研究并验证其领域适应性问题；3、研究适用于该融合模型的译文置信度评估方法。该项目中的关键技术一旦得到攻克，将为翻译人员提供更好的参考译文，从而极大地提高人工翻译效率。该研究不仅具有重要的理论研究意义，而且具有广阔的应用前景。

项目摘要

在项目实施的三年时间内，我们针对统计翻译和翻译记忆的融合问题进行了深入研究。在多模型融合研究方面：（1）我们提出了统计机器翻译和翻译记忆的动态融合方法，在解码过程中进一步地动态加入翻译记忆中新发现的短语对。它在机器翻译解码过程中动态地加入翻译记忆片段作为候选，并利用翻译记忆的相关信息指导基于短语的翻译模型进行解码。（2）针对专业领域翻译的特殊现状，我们提出了使用通用领域的统计机器翻译模型与专业领域的翻译记忆结合方法，在解码过程中利用专业领域的翻译记忆来补充短语翻译候选，同时还使用翻译记忆中挖掘的信息来指导统计机器翻译模型解码。在系统构建方面，我们构建了融合翻译记忆、基于实力的机器翻译模型和基于统计的机器翻译模型的多模型融合辅助翻译系统，圆满完成了项目任务。在论文和专利方面，项目发表了8篇国际和国内重要期刊和会议的学术文章，并申请2项国家发明专利。在研究生培养方面，项目执行三年里，2名同学获得博士学位。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.7498/aps.68.20181682

发表时间：2019

DOI：10.7544/issn1000-1239.2019.20190386

发表时间：2019

DOI：

发表时间：2017

DOI：DOI: 10.11902/1005.4537.2013.169

发表时间：2014

DOI：

发表时间：2022

汪昆的其他基金

批准号：11102228

批准年份：2011

资助金额：27.00

项目类别：青年科学基金项目

相似国自然基金

面向辅助翻译的统计机器翻译自诊断和自纠错方法研究

批准号：61100085

批准年份：2011

负责人：杜金华

学科分类：F0211

资助金额：23.00

项目类别：青年科学基金项目

基于用户反馈的多策略翻译在线融合方法研究

批准号：61272384

批准年份：2012

负责人：杨沐昀

学科分类：F0211

资助金额：80.00

项目类别：面上项目

融合语言知识与统计模型的机器翻译方法研究

批准号：60736014

批准年份：2007

负责人：刘群

学科分类：F0211

资助金额：180.00

项目类别：重点项目

面向动态数据的翻译模型更新方法研究

批准号：61806065

批准年份：2018

负责人：卜晨阳

学科分类：F0607

资助金额：24.00

项目类别：青年科学基金项目

面向辅助翻译的多模型融合方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

基于卷积神经网络的JPEG图像隐写分析参照图像生成方法

基于小波高阶统计量的数字图像来源取证方法

Fe-Si合金在600℃不同气氛中的腐蚀

融合字符串特征的维吾尔语形态切分

汪昆的其他基金

一段式平台转移设计牙种植体力学和生物学性能的实验研究

相似国自然基金