基于结构信息的神经网络机器翻译研究

基本信息
批准号:61772261
项目类别:面上项目
资助金额:59.00
负责人:黄书剑
学科分类:
依托单位:南京大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:陈家骏,陈华栋,邹威,伊力亚尔·加尔木哈买提,鲍宇,张建兵,赵程绮,翁荣祥,郑在翔
关键词:
神经网络机器翻译机器翻译结构信息句法分析基于句法的机器翻译
结项摘要

Neural Machine Translation (NMT), which models the whole translation process using massive parameters, is a popular research topic in recent years. Current NMT research mostly focuses on the end-to-end model which uses word sequences for both the modeling of source sentences and the generation of target sentences. Despite the strong expressive power of such sequential models, we argue that the neglect of the linguistic structural information for both source and target side may become a limit for further improvement in NMT. We propose to investigate NMT based on structural information, with common linguistic structures such as chunking, dependency relations and phrase structures. More specifically, we propose to perform research on the source side encoding and representation based on multiple structures mentioned previously; on the collaborative utilization of the structural information in multiple stages, such as decoding and mapping between source and target side; and on the methods of obtaining the structural information in multiple ways, such as using external tools or learning them as hidden variables inside the NMT system. We propose to make contributions from these three perspectives of structural information, namely encoding, utilization and obtaining, and to push forward the NMT research.

神经网络机器翻译以大规模参数来建模翻译的整个过程,是近年来流行的研究方向。当前的神经网络研究中主要使用基于单词序列的端到端模型对源语言进行建模和目标语言进行生成。项目组认为,上述基于单词序列的模型虽然已有很强的学习能力,但是忽略了源端和目标端的结构信息,从而限制了神经网络机器翻译系统的进一步提升。为此,项目组提出以组块、依存关系、短语结构等常见的基于语言学的结构信息为例,研究基于结构信息的神经网络机器翻译。具体而言,本项目的研究内容包括基于组块、句法等多层次的语言结构信息进行源端的编码表示,在目标端解码生成和源端目标端对应等多阶段对结构信息的协同利用,以及结合外部分析工具和模型隐变量自动学习的多来源结构信息获取方法。从而从结构信息的编码表示、协同利用以及获取学习三个角度,推动神经网络机器翻译研究的发展。

项目摘要

主流的神经机器翻译研究主要采用序列到序列模型结构。这样的结构忽略了自然语言中存在的各类结构信息,对复杂句子的理解往往存在问题。本项目尝试对自然语言蕴含结构信息进行研究,通过研究结构信息的表示、利用和学习三个方面,力图将这些丰富的信息加入到神经网络机器翻译中,从而提升整体翻译效果。针对与机器翻译密切相关的特定结构信息,项目组提出了针对性的表示利用方法。此外,项目组还进行了在机器翻译训练过程中自动进行结构信息学习的研究探索。部分代表性的成果包括:对于位置顺序等结构信息的表示方法,针对翻译过程、篇章上下文等特殊结构信息的建模和利用方法,利用隐变量进行自动结构信息学习的方法等。在公开数据集上的实验验证了上述方法的有效性。相关成果发表在自然语言处理和人工智能的顶级国内国际会议上,并在部分合作企业进行了合作应用。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022
3

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

DOI:10.3969/j.issn.1674-0858.2020.04.30
发表时间:2020
4

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021
5

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021

黄书剑的其他基金

批准号:61300158
批准年份:2013
资助金额:23.00
项目类别:青年科学基金项目

相似国自然基金

1

基于神经网络的蒙汉机器翻译研究

批准号:61762072
批准年份:2017
负责人:王斯日古楞
学科分类:F0211
资助金额:38.00
项目类别:地区科学基金项目
2

基于句子语义结构的统计机器翻译研究

批准号:61401295
批准年份:2014
负责人:李军辉
学科分类:F0113
资助金额:25.00
项目类别:青年科学基金项目
3

基于信息熵理论的前馈神经网络分类器结构优化

批准号:69705001
批准年份:1997
负责人:黄德双
学科分类:F0605
资助金额:12.50
项目类别:青年科学基金项目
4

跨语言信息检索中的机器翻译研究

批准号:61173100
批准年份:2011
负责人:黄德根
学科分类:F0211
资助金额:55.00
项目类别:面上项目