深度神经网络泛化理论的研究

基本信息
批准号:61806009
项目类别:青年科学基金项目
资助金额:27.00
负责人:朱占星
学科分类:
依托单位:北京大学
批准年份:2018
结题年份:2021
起止时间:2019-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:邰骋,吴磊,李静,殷浩腾
关键词:
可理解性深度学习泛化理论随机梯度下降
结项摘要

Recently, deep learning has experienced fast developments, achieving tremendous success in artificial intelligence and other domains. However, as a type of machine learning framework, the underlying mechanism of why deep models work is still a mystery. There exists no theories that could explain its good generalization performance..The proposed project aims to establishing the learning theory of deep neural networks and explaining the mechanism of generalization. This could directly provide insights for designing better strategies and algorithms. We mainly focus on analyzing two factors that might affect the generalization performance: the characteristics of loss landscapes and optimization algorithms. Furthermore, based the established theories, we will develop series of regularization strategies for handling the scenarios of small and noisy training samples. And we will also design optimization approaches, not only achieving fast convergence but also better generalization performance

近些年来,深度学习迅猛发展,在人工智能及其他多个领域的应用问题中都取得了巨大的成功。但是,作为一类机器学习方法,深度学习模型具有优异性能的原因还不清楚,目前尚无相关理论解释深度学习的泛化能力。.本项目旨在建立深度神经网络的学习理论,阐明深度学习泛化的原理,为设计更优的深度学习策略与算法提出理论指导。项目拟分析影响泛化能力的两个方面:损失函数的特性以及优化算法的行为,全面揭示这二者对深度网络泛化能力不同程度的影响。进一步,我们以此理论探索为基础,发展一系列在小样本、噪声样本下提高模型泛化能力的正则化策略,以及开发同时兼具收敛速度快和泛化能力优异的优化算法。并将这些算法应用于计机视觉、自然语言处理及强化学习相关的问题中。

项目摘要

深度学习在人工智能及其他多个领域的应用问题中都取得了巨大的成功。但深度学习模型具有优异性能的原因还不清楚,尤其是如何解释深度学习的泛化能力依然是深度学习研究的一个关键方向。 . 本项目旨在建立深度神经网络的学习理论,阐明深度学习泛化的原理,为设计更优的深度学习策略与算法提出理论指导。项目在执行过程中分析影响泛化能力的两个方面: 损失函数的特性以及优化算法的行为,全面揭示这二者对深度网络泛化能力不同程度的影响。进一步,我们以此理论探索为基础,已经发展了一系列在小样本、噪声样本下以及对抗环境下提高模型泛化能力的模型与方法;同时开发了收敛速度快、泛化能力优异、稳健性优秀的优化算法。并成功的将这些算法应用于图神经网络相关应用、计算机视觉、交通预测问题中。. 通过以上这些探索与实践,项目在深度学习模型的泛化能力理论的研究产出了显著的科研成果,发表CCFA类以上会议或期刊论文10篇,研究成果被相关学术媒体报道。在人才培养方面,项目培养博士研究生 1人, 硕士 3 人。特别地,项目负责人朱占星因多个项目成果获得阿里达摩院青橙奖(全国仅 10 位)。以上项目成果均超额完成预期项目目标。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
3

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

DOI:10.7606/j.issn.1000-7601.2022.03.25
发表时间:2022
4

针灸治疗胃食管反流病的研究进展

针灸治疗胃食管反流病的研究进展

DOI:
发表时间:2022
5

卫生系统韧性研究概况及其展望

卫生系统韧性研究概况及其展望

DOI:10.16506/j.1009-6639.2018.11.016
发表时间:2018

朱占星的其他基金

相似国自然基金

1

动态深度与宽度神经网络的泛化误差模型

批准号:61876066
批准年份:2018
负责人:吴永贤
学科分类:F0601
资助金额:62.00
项目类别:面上项目
2

深度神经网络的margin理论

批准号:61573026
批准年份:2015
负责人:王立威
学科分类:F0605
资助金额:64.00
项目类别:面上项目
3

深度神经网络的学习理论

批准号:61876133
批准年份:2018
负责人:林绍波
学科分类:F0603
资助金额:63.00
项目类别:面上项目
4

深度神经网络中的特征投影理论

批准号:61807021
批准年份:2018
负责人:黄绍伦
学科分类:F0610
资助金额:24.00
项目类别:青年科学基金项目