引入功能语篇分析的汉英语篇统计机器翻译方法研究

基本信息
批准号:61573294
项目类别:面上项目
资助金额:66.00
负责人:陈毅东
学科分类:
依托单位:厦门大学
批准年份:2015
结题年份:2019
起止时间:2016-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:史晓东,周昌乐,郑泽芝,苏劲松,郑旭玲,曾华琳,黄研洲,邬昌兴,胡金铭
关键词:
协同神经网络功能语篇分析统计机器翻译语篇翻译模型复杂网络
结项摘要

In the project, researches on how to incorporate functional discourse analysis and rhetorical structure knowledge in statistical machine translation (SMT) models will be conducted. Besides the problem of setting up a discourse-based SMT model driven by functional structures and rhetorical structures, two other key problems will be investigated in this project. One is how to implement the automatic functional analysis of Chinese discourse, and the other is how to model the features for Chinese rhetorical relation classification. For the first problem, a method based on the synergetic theory will be studied. For the second one, we will introduce an approach based on complex network analysis. The project comprises four primary phases. Firstly, we will study an automatic method for functional analysis of Chinese discourses, in which structures of different functional will be labeled synchronously by using a method base on Synergetic Neural Network (SNN). Secondly, we will conduct a research on modeling the features for Chinese rhetorical relation classification, in which a method based on complex network analysis will be introduced. Thirdly, we will carry out research on automatic partition of Chinese sentence groups, in which both thematic progression knowledge and rhetorical knowledge will be used. Finally, based on the above phases, we will try to set up a discourse-based statistical machine translation model driven by functional structures and rhetorical structures, which will consist of three sub models: a model for Chinese-English discourse structures transformation, a discourse-aware sentence translation model, and a model for English discourse combination. Obviously, the work of this project is significant for machine translation research, research on functional discourse analysis and rhetoric-related research.

扩展到语篇层是统计机器翻译进一步发展的一种可能途径。这方面的研究目前刚刚起步,特别是,语篇结构分析还不够深入。针对这一问题,本项目拟以系统功能语言学和修辞学理论为指导,建立以汉语小句功能结构和语篇修辞结构为驱动的汉英语篇统计机器翻译模型。项目主要研究内容包括有:汉语小句功能分析方法研究、汉语语篇修辞关系分析方法研究、汉语句群划分方法研究、汉英语篇结构转译模型研究、基于句群全局信息的汉英小句翻译模型研究、英语译文语篇拼接模型研究等。为实现汉语小句功能自动标注,本项目将研究利用概念、交际和语篇三大纯理功能相互关联与协同互动的特点,借助协同神经网络模型实现这三个功能的一体化标注;为了对汉语修辞格层进行关系特征建模,本项目将借助复杂网络的数据分析方法,这为修辞学的计算研究提供了新思路。很明显,这项研究无论对统计机器翻译研究、功能语篇分析研究或是对汉语修辞学研究,都是有着重要理论意义与实际意义的。

项目摘要

本项目旨在以系统功能语言学和修辞学理论为指导实现机器翻译模型的篇章层改造,项目组围绕相互关联的4个方面开展了深入研究:(1)在功能语篇建模与语篇分析相关研究方面,项目组结合系统功能语法和汉语篇章研究成果,制订了汉语语篇主述标注规范并建设了相关语料,进而实现了汉语语篇主述自动标注方法;同时,针对语篇关系识别问题,项目组提出了结合协同训练方法、结合双语限制合成数据和多任务训练方式、结合语篇增强嵌入表示等多种有效的语篇隐式关系识别方法,这些工作为融合语篇的机器翻译建模奠定了坚实的基础。(2)在融合语篇语义的神经机器翻译研究方面,项目组建立了性能优秀的基线神经翻译系统,提出了格到序列、结合词性增强注意力、结合时态注意力等多个创新的神经翻译改进模型,最终建立了结合主述信息的篇章神经翻译模型,实现机器翻译模型的篇章级改造。(3)在语义分析与语义表示相关研究方面,项目组提出了从传统语义资源构建概率框架库的方法,建立了基于自注意力机制的深度语义角色标注方法,尝试了结合脑电技术的词汇语义相似度标准集建立与验证方式,提出了融合双语语义约束的词汇嵌入表示方法,这些工作对汉语语篇分析起到了良好的辅助和补充。(4)在稀缺资源机器翻译研究与多模态机器翻译研究方面,项目组实现了性能优异的藏汉双向神经翻译系统,提出了基于增量自学习的多语言机器翻译方法,建立了汉英语音翻译模型和相应的同声传译系统,并探索了中国手语神经翻译方法,这些工作通过拓展应用进一步验证了篇章增强机器翻译模型的有效性。整体而言,项目组通过4年的项目执行,达成了预期的研究目标,取得了较丰富的成果:累计在本领域重要学术期刊和会议上发表标注论文19篇,其中SCI检索7篇,EI检索13篇,AAAI、ACL、EMNLP等本领域顶级会议论文各1篇;获得西藏自治区科学技术奖一等奖1次;举办全国性学术会议1次;受邀做全国性学术论坛特邀报告1次;培养毕业了2位博士研究生、5位硕士研究生。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
3

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
4

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
5

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018

陈毅东的其他基金

相似国自然基金

1

汉语多层次语篇分析理论方法研究与应用

批准号:61333018
批准年份:2013
负责人:宗成庆
学科分类:F0305
资助金额:300.00
项目类别:重点项目
2

语篇中话题的韵律编码方式及其对语篇理解的影响:汉语和彝语对比研究

批准号:60905062
批准年份:2009
负责人:王蓓
学科分类:F0609
资助金额:17.00
项目类别:青年科学基金项目
3

汉语语篇连贯的事件链模型研究

批准号:61373108
批准年份:2013
负责人:姬东鸿
学科分类:F0211
资助金额:78.00
项目类别:面上项目
4

汉语语篇中连贯关系和隐含角色的分析标注研究

批准号:61373075
批准年份:2013
负责人:周强
学科分类:F0211
资助金额:78.00
项目类别:面上项目