基于篇章语义的文档级统计机器翻译研究

基本信息
批准号:61305088
项目类别:青年科学基金项目
资助金额:25.00
负责人:贡正仙
学科分类:
依托单位:苏州大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:钱培德,车婷婷,王星,刘乐
关键词:
缓存技术文档级统计机器翻译篇章语义机器翻译评测
结项摘要

Machine translation is a hot research topic in Natural Language Understanding. It can effectively promote information sharing and thus has wide application and research value. As the mainstream of machine translation technology, most Statistical Machine Translation (SMT) systems translate documents sentence by sentence under strict independence assumptions. This proposal focuses on two key problems to document-level SMT : one is to analyze what discourse-level information is lost in traditional SMT systems, and another is on how to control such loss in these SMT systems. The main contents of this proposal include: 1) exploiting related document-level knowledge which can improve SMT performance, and design an effective control framework to keep discourse semantic unchanged during translation; 2) exploring a reliable framework for document-level SMT. First, a baseline is built to perform document-level translation with cache technology. Then, a topic sentences-driven SMT is proposed with consistency control; 3) exploring proper evaluation metrics for document-level SMT systems. Current evaluation metrics are only suitable to sentence-level SMT and can not objectively reflect quality changes at document level. Research on the development of corresponding evaluation metrics can thus actively promote the research on document-level machine translation.

机器翻译是自然语言理解的一个研究热点,能有效地促进信息共享,具有广泛的研究价值和应用前景。统计机器翻译(SMT)是目前主流的机器翻译技术,但即使面对的是文档,大多数SMT系统也是以句子为翻译单位孤立地进行翻译。本项目将在前期研究的基础上,重点研究文档级SMT技术亟需解决的两个核心问题:一是分析现有SMT系统在文档翻译的过程中发生了哪些篇章语义信息的缺失;二是研究如何在SMT系统中有效控制这种缺失。主要研究内容包括:1)充分发掘能够提高SMT质量的文档信息,设计有效的篇章语义控制框架;2)探索文档级SMT的翻译机制,利用缓存技术实现能够进行文档级翻译的基准系统,重点研究中心句驱动的全文翻译并避免翻译的过度一致;3)探索能客观反映文档级SMT性能的评价标准。目前针对句子的评价标准不能客观反映文档级翻译所带来的质量改变,相应评价标准的研究能积极推动此项研究的发展。

项目摘要

机器翻译是自然语言理解中的一个研究热点,能有效地促进信息共享,具有广泛的研究价值和应用前景。由于采用句子为翻译单位孤立进行翻译的统计机器翻译(SMT)系统会导致译文整体效果不佳,本项目从评测和篇章语义翻译两个层面重点开展了三方面工作:(1)构建了衡量文档级自动评价方法的语料(即金标准),分析了篇章翻译在衔接性上的不同表现,在此基础上开发了基于词汇加权的自动评价方法、融合多种衔接装置的文档级机器翻译评价方法等。协助构建了苏州大学篇章树库语料,为需要篇章信息的其它研究任务提供了数据支持。(2)在研究过程中,发现采用分类机制来提高基于缓存的全文翻译系统的性能不佳,由于暂时无法克服数据稀疏问题,项目组及时调整了研究方案,在构建好的语料上,重点分析了能反应译文质量的中心句,构建了基于中心句语义分析的翻译系统。(3)增强篇章语义的SMT的研究。项目组完成了基于机器翻译的语义分析工作,为了挖掘文档信息对SMT的影响,在翻译上下文指导下,项目组研究了SMT翻译过程中谓语动词和属于其管辖范围下的论元偏向选择现象,构建了采用偏向选择机制的SMT系统。..三年来,课题总体进展顺利,研究计划已按要求完成,达到预期目标。本项目组共发表论文10篇,其中自然语言顶级会议ACL/EMNLP/COLING长文4篇,SCI索引的期刊论文(ACM TALIP)1篇,中文核心期刊论文2篇,EI索引会议论文2篇,EMNLP2015关于篇章翻译的专题论文1篇。申请专利1项。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
3

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

DOI:
发表时间:2020
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

结核性胸膜炎分子及生化免疫学诊断研究进展

结核性胸膜炎分子及生化免疫学诊断研究进展

DOI:10.3760/cma.j.issn.1674-2397.2020.05.013
发表时间:2020

贡正仙的其他基金

相似国自然基金

1

基于词汇语义的统计机器翻译研究

批准号:61403269
批准年份:2014
负责人:熊德意
学科分类:F0606
资助金额:25.00
项目类别:青年科学基金项目
2

基于句子语义结构的统计机器翻译研究

批准号:61401295
批准年份:2014
负责人:李军辉
学科分类:F0113
资助金额:25.00
项目类别:青年科学基金项目
3

基于句法结构和篇章结构的统计机器翻译关键技术研究

批准号:61373095
批准年份:2013
负责人:张民
学科分类:F0211
资助金额:79.00
项目类别:面上项目
4

面向多层次篇章语义的机器翻译理论、方法与实现

批准号:61432013
批准年份:2014
负责人:张民
学科分类:F0211
资助金额:350.00
项目类别:重点项目