深度挖掘人工译文信息的机器翻译自动评价方法研究

基本信息
批准号:61602284
项目类别:青年科学基金项目
资助金额:20.00
负责人:于惠
学科分类:
依托单位:山东师范大学
批准年份:2016
结题年份:2019
起止时间:2017-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:齐峰,郭磊,王鑫,刘珊珊,尹传城,张骏,金连旭
关键词:
机器翻译自动评价深度学习概率依存模型篇章结构
结项摘要

Automatic evaluation of machine translation (AEMT) plays an important role during the development of machine translation. It can not only evaluate the performance of translation systems but also guide the performance improvement of translation systems. Currently, AEMT metrics mainly calculate the similarity between the hypothesis and the reference, so the exploitation of reference information is critical for the metric performance. But the current AEMT metrics cannot make the most of the reference information. This project will deeply analyze and exploit the reference information from the following aspects. (1) The syntax-based metric is limited by the length of the sub-structures. To solve this problem, we study the AEMT metric based on probability dependency. The dependency tree of hypothesis is made up by the dependency information of reference to cover all syntactic information. (2) Currently, the number of references is too small. To solve this problem, we study the AEMT metric based on automatic extension of reference. The reference is extended by deep learning and the evaluation is performed on the extended reference. (3) For syntax-based AEMT metric, only the information within the sentence is used. To solve this problem, we study the AEMT metric based on discourse dependency. The relationship between sentences is exploited by discourse dependency structure to improve the performance of AEMT metric on system level.

机器翻译自动评价是影响机器翻译发展的一个关键因素。它不仅可以评价翻译系统的性能,还可以指导翻译系统性能的提高。目前的自动评价方法主要是计算人工译文和机器译文的相似度,人工译文信息的挖掘程度对评价方法的性能起到了举足轻重的作用,然而现有的自动评价方法对人工译文信息的利用并不充分。本项目在以下几个方面对人工译文信息进行深入分析和挖掘:(1)针对基于句法的评价方法受限于子结构长度的问题,研究基于概率依存的自动评价方法,通过人工译文的依存信息拼接出机器译文的依存树,覆盖全部句法信息。(2)针对人工译文数目过少的问题,研究基于人工译文自动扩展的评价方法,通过深度学习对人工译文进行自动扩展,在扩展后的人工译文上进行评价。(3)针对基于句法的评价方法在计算系统级分数时只使用句子内部信息的问题,研究基于篇章依存的自动评价方法,通过篇章依存结构挖掘句子间的联系,提高评价方法在系统级的评价性能。

项目摘要

机器翻译自动评价是影响机器翻译发展的一个关键因素。它不仅可以评价翻译系统的性能,还可以指导翻译系统性能的提高。目前的自动评价方法主要是计算人工译文和机器译文的相似度,然而现有的自动评价方法对机器译文和人工译文信息的利用并不充分。本项目在篇章信息以及人工译文句法信息的充分利用方面进行了研究,具体如下:.(1)有些评价方法在进行系统级评分时只是通过对每个句子的评分进行累计和平均来获得,忽略了对篇章结构的利用,而篇章信息对机器翻译自动评价技术在系统级评价方面非常重要。针对该问题,本项目提出了基于篇章连贯性的机器翻译自动评价方法C-ENTF,该方法通过计算每两个句子间的相关性把篇章表示为一个图,使用该图的子图频数来表示篇章连贯性信息。然后将得到的篇章连贯性信息融入到现有的自动评价方法ENTF中。.(2)只利用篇章连贯性得到的篇章信息是有限的,为了更充分的使用篇章信息,本项目提出了融合多种篇章结构的机器翻译自动评价方法DS-ENTF,该方法同时将篇章连贯性和篇章表示结构信息融入到现有的自动评价方法ENTF中。.(3)在单个句子信息利用方面,现有基于句法的评价方法需要人工在参考译文或机器译文的句法树中定义一些子结构。这些子结构一般有长度限制,不能表达出句法树中的全部信息。针对该问题,本项目提出了基于概率依存模型的机器翻译自动评价方法DPF。该方法不需要人工定义子结构,而是通过参考译文依存树片段拼接出机器译文的依存树,根据机器译文依存树的质量来判断所对应的机器译文在句法上的正确性。为了同时捕捉词汇相似度,该方法还加入了一元F值信息。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

于惠的其他基金

批准号:41704165
批准年份:2017
资助金额:26.00
项目类别:青年科学基金项目
批准号:41801191
批准年份:2018
资助金额:23.50
项目类别:青年科学基金项目

相似国自然基金

1

基于语言理解的机器翻译译文自动评价方法研究

批准号:61203313
批准年份:2012
负责人:李茂西
学科分类:F0606
资助金额:24.00
项目类别:青年科学基金项目
2

基于句法结构和语义框架的机器翻译自动评价方法研究

批准号:61379086
批准年份:2013
负责人:刘群
学科分类:F0211
资助金额:73.00
项目类别:面上项目
3

基于深度学习的机器译文质量估计方法研究

批准号:61462044
批准年份:2014
负责人:李茂西
学科分类:F0211
资助金额:46.00
项目类别:地区科学基金项目
4

无人工标注全自动文本检索评价方法研究

批准号:60776797
批准年份:2007
负责人:王斌
学科分类:F0211
资助金额:26.00
项目类别:联合基金项目