机器翻译中大规模异类特征的迁移学习

基本信息
批准号:61300115
项目类别:青年科学基金项目
资助金额:23.00
负责人:刘宇鹏
学科分类:
依托单位:哈尔滨理工大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:赵石磊,乔秀明,朱晓宁,张文文,李婷婷,王春英,宣宏伟,李金刚,杜宁
关键词:
迁移学习异类语料异类机器翻译系统/标签系统大规模训练异类特征
结项摘要

Conventional system combination is an important way of improving machine translation performance, but it can't consider the basis reason of system diversity and training method, and conventional system combination doesn't give integration framework. According to two fundamental problems including task and domain, the reason of resulting in heterogeneous feature are heterogeneous labeling system/machine translation from task and heterogeneous training corpora from domain. We use online training as large-scale heterogeneous feature training method because minimum error rate training is sensitive to the feature number. The content of the subject is as follows: 1) research on the integration model of machine translation and pruning technique of the model; 2) transfer learning of heterogeneous machine translation/labeling system; 3) transfer learning of heterogeneous training corpora. The researches on heterogeneous machine translation obtain a better understanding of the advantages and disadvantages of each type of machine translation. The researches on heterogeneous labeling system and training corpora obtain a better understanding of their impact on machine translation system.

传统的机器翻译系统融合是提高级器翻译性能的一种重要手段,但是传统的融合模型并没有给出一体化模型的定义,同时也没有考虑机器翻译系统差异性给系统融合造成的影响和传统训练方法的局限性。本课题利用迁移学习的强大理论基础,从迁移学习中两个基本问题(任务和领域)出发,把造成差异性(异类特征)的原因分为异类机器翻译系统/异类标签系统(从任务角度出发)和异类语料(从领域出发),且采用了大规模特征训练算法,克服了传统训练方法对于特征数量的限制。本课题主要先进行一体化模型定义和效率的研究;对于异类机器翻译系统/标签系统,进行基于特征/参数大规模融合;对于异类语料训练通过公共特征的选择,把公共特征加入到融合前的机器翻译系统中来进行融合。而且对于异类机器翻译系统问题研究,能够更好的认识到每个类型机器翻译的优缺点;对于异类标签系统和异类语料的研究,能够更好的认识到异类标签系统和异类语料对于机器翻译系统的影响。

项目摘要

本项目是机器翻译领域多个机器翻译系统互相协助完成翻译的最新研究成果,应用了现在先进的机器学习手段:迁移学习和深度学习。与经典基线系统比较起来,获得了一定的效果。本项目主要按照三个方面的研究内容展开:1)提出可应用于机器翻译的迁移模型,使得迁移学习成为可能;2)训练算法的实现,采用两种形式训练目标函数:最大似然和最小风险,并为了解决过拟合引入正则化部分,使得训练数据中得到的参数和测试数据需要的参数之间尽可能的匹配;3)在不同类型的异类特征(异类系统和异类语料)间采用不同的训练目标函数,以适合于该种类型的异类特征。本项目的研究对于促进机器翻译和迁移学习技术的发展有着重要贡献,可使得研究者更加明晰每个系统长处和短处,从而通过改进特征,训练和解码方法来解决本系统中存在的问题。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
3

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020
4

卫生系统韧性研究概况及其展望

卫生系统韧性研究概况及其展望

DOI:10.16506/j.1009-6639.2018.11.016
发表时间:2018
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

刘宇鹏的其他基金

相似国自然基金

1

面向智能视觉监控的大规模慢特征学习研究

批准号:61473290
批准年份:2014
负责人:张彰
学科分类:F0604
资助金额:80.00
项目类别:面上项目
2

基于特征/样本稀疏性的大规模核学习算法研究

批准号:61772020
批准年份:2017
负责人:周水生
学科分类:F0605
资助金额:52.00
项目类别:面上项目
3

利用机器学习改进统计机器翻译的研究

批准号:60903138
批准年份:2009
负责人:刘洋
学科分类:F0211
资助金额:17.00
项目类别:青年科学基金项目
4

基于强化学习的神经机器翻译研究

批准号:61876174
批准年份:2018
负责人:冯洋
学科分类:F0606
资助金额:16.00
项目类别:面上项目