基于主题模型的枢轴语言统计机器翻译研究

基本信息
批准号:61303082
项目类别:青年科学基金项目
资助金额:27.00
负责人:苏劲松
学科分类:
依托单位:厦门大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:陈毅东,张开旭,崔志健,黄研洲,徐伟,邬昌兴,何钟豪
关键词:
统计机器翻译枢轴语言主题模型
结项摘要

Pivot language approach for statistical machine translation (SMT), which is able to break through the bottleneck in parallel corpus, has become a hotspot in machine translation research and applications. However, because of the diversity and sparsity in language, the pivot-side context information is far from fully utilized in the implementation of conventional pivot language approaches, and this results in negative effects on final models. In this project, we propose to introduce topic model to establish context-aware pivot-based SMT. The research mainly includes the following three aspects: ① We focus on how to represent the context with topic model information, which is able to overcome the defect of the conventional approaches and meet the modeling needs in pivot-based SMT. ② Based on the above representation, we propose a word alignment model with the topic-based context in the pivot side. ③ Based on the above representation, we propose a translation model with the topic-based context in the pivot side. Taking advantage of topic model, our project promotes pivot-based SMT from context-free modeling to context-sensitive modeling. The implementation of our project provides new insight into breaking down the resource barrier using pivot language approaches, thus it has important theoretical and practical significance for resource-poor machine translation.

枢轴语言方法能够克服统计机器翻译缺乏双语语料的困境,成为近年来机器翻译研究和产业化的热点之一。然而,由于语言的多样性和稀疏性,目前的枢轴语言建模方法无法充分利用枢轴语言翻译单元的上下文信息,对最终模型产生负面影响。对此,本项目提出引入主题模型来建立上下文相关的枢轴语言统计机器翻译。项目主要工作包括:① 研究基于主题模型的上下文表示方法,克服传统方法存在的缺陷,满足枢轴语言统计机器翻译建模的需求;② 在基于主题模型的上下文表现形式下,研究引入枢轴语言上下文的词语对齐建模新方法;③ 在基于主题模型的上下文表现形式下,研究引入枢轴语言上下文的翻译模型建模新方法。项目充分发挥了主题模型的优势,推动枢轴语言统计机器翻译由上下文无关建模发展为上下文相关建模。项目的开展将为如何更好地利用枢轴语言方法来解决训练资源缺乏问题提供一种新思路,对于资源贫乏语言的机器翻译具有重要意义。

项目摘要

枢轴语言方法能够克服统计机器翻译缺乏双语语料的困境,成为近年来机器翻译研究和产业化的热点之一。然而,由于语言的多样性和稀疏性,目前的枢轴语言建模方法无法充分利用枢轴语言翻译单元的上下文信息,对最终模型产生负面影响。对此,本项目提出引入主题模型来改善枢轴语言统计机器翻译。在项目实施过程中,课题组主要开展了以下研究工作:(1)引入基于主题复述知识的统计机器翻译模型研究:研究如何引入基于主题模型的篇章上下文信息来改善基于平行语料的复述知识获取质量;(2)基于主题触发的统计机器翻译模型研究:研究如何引入基于主题模型的篇章上下文信息来改善统计机器翻译模型建模效果;(3)主题敏感的枢轴语言统计机器翻译模型研究:研究如何引入基于主题模型的篇章上下文信息对改善枢轴语言统计机器翻译建模效果;(4)面向统计机器翻译的上下文感知主题模型研究:研究如何利用主题模型来建模双语平行句对的生成过程,使得不同层次上下文信息对译文选择的影响能够联合建模;项目充分发挥了主题模型的优势,推动统计机器翻译,特别是枢轴语言统计机器翻译由上下文无关建模发展为上下文相关建模。项目的开展对于统计机器翻译研究具有重要理论意义与实际意义。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

货币政策与汇率制度对国际收支的影响研究

货币政策与汇率制度对国际收支的影响研究

DOI:
发表时间:2022

苏劲松的其他基金

批准号:61672440
批准年份:2016
资助金额:62.00
项目类别:面上项目

相似国自然基金

1

基于枢轴语言的汉越句法统计翻译方法研究

批准号:61672271
批准年份:2016
负责人:余正涛
学科分类:F0211
资助金额:61.00
项目类别:面上项目
2

融合语言知识与统计模型的机器翻译方法研究

批准号:60736014
批准年份:2007
负责人:刘群
学科分类:F0211
资助金额:180.00
项目类别:重点项目
3

互译语言形态非对称的统计机器翻译模型构造方法研究

批准号:61070099
批准年份:2010
负责人:李淼
学科分类:F0211
资助金额:32.00
项目类别:面上项目
4

基于枢轴语言和图映射的历史典籍术语对齐研究

批准号:61402068
批准年份:2014
负责人:车超
学科分类:F0211
资助金额:23.00
项目类别:青年科学基金项目