Recently reinforcement learning has shown its superiority on machine translation and drawn more attention. It works by adjusting the behavior of the agent according to the defined rewards so that the agent can take the action which leads to a high reward. In this project, we apply reinforcement learning to resolve the problem caused by the discrepancy of target context between training and test. We take as the teacher the model which uses as context the previous words from ground truth translation, and take as the student the model which uses as context the previous word generated by the model, then use the probabilities from the teacher as rewards to guide the training of the student under the framework of reinforcement learning.
最近强化学习在机器翻译中表现出优异的性能,受到越来越多的关注。它通过定义的奖励函数来调整当前智能体的行为,使得智能体倾向于采用奖励高的行动。本项目采用强化学习的方法来解决神经机器翻译中由于训练和测试使用的上文不一致引起模型偏差的问题。我们将以参考译文中的词为上文得到模型作为老师模型,将以模型生成的词作为上文得到的模型作为学生模型,用老师模型生成奖励来指导学生模型进行优化。
神经机器翻译中的曝光偏差问题受到了人们越来越多的关注。曝光偏差是指神经机器翻译模型的词级别优化方法中存在的训练与测试不一致的现象。目前,通常的解决方案是使用序列级训练方法来缓解模型的曝光偏差问题,对模型的序列级训练则一般是基于强化学习算法来实现。在本项目中,一方面,我们提出了谕示词方法,通过在训练时向模型输入一定的谕示词来减小训练与测试的差异,在基于强化学习的序列级训练方法外探索了缓解曝光偏差问题的另一种思路。实验表明,谕示词方法能有效地缓解翻译模型的曝光偏差、提升模型的翻译质量;另一方面,我们进一步地探索了强化学习算法在神经机器翻译上的应用,验证了序列级训练在非自回归模型上的有效性。实验表明,对非自回归模型进行基于强化学习的序列级训练能有效地提升模型的翻译质量、减少译文中的过翻译、漏翻译错误。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度
面向神经机器翻译的结构学习方法研究
基于神经机器翻译的电网故障诊断
基于结构信息的神经网络机器翻译研究
基于神经网络的蒙汉机器翻译研究