Recently, deep learning has experienced fast developments, achieving tremendous success in artificial intelligence and other domains. However, as a type of machine learning framework, the underlying mechanism of why deep models work is still a mystery. There exists no theories that could explain its good generalization performance..The proposed project aims to establishing the learning theory of deep neural networks and explaining the mechanism of generalization. This could directly provide insights for designing better strategies and algorithms. We mainly focus on analyzing two factors that might affect the generalization performance: the characteristics of loss landscapes and optimization algorithms. Furthermore, based the established theories, we will develop series of regularization strategies for handling the scenarios of small and noisy training samples. And we will also design optimization approaches, not only achieving fast convergence but also better generalization performance
近些年来,深度学习迅猛发展,在人工智能及其他多个领域的应用问题中都取得了巨大的成功。但是,作为一类机器学习方法,深度学习模型具有优异性能的原因还不清楚,目前尚无相关理论解释深度学习的泛化能力。.本项目旨在建立深度神经网络的学习理论,阐明深度学习泛化的原理,为设计更优的深度学习策略与算法提出理论指导。项目拟分析影响泛化能力的两个方面:损失函数的特性以及优化算法的行为,全面揭示这二者对深度网络泛化能力不同程度的影响。进一步,我们以此理论探索为基础,发展一系列在小样本、噪声样本下提高模型泛化能力的正则化策略,以及开发同时兼具收敛速度快和泛化能力优异的优化算法。并将这些算法应用于计机视觉、自然语言处理及强化学习相关的问题中。
深度学习在人工智能及其他多个领域的应用问题中都取得了巨大的成功。但深度学习模型具有优异性能的原因还不清楚,尤其是如何解释深度学习的泛化能力依然是深度学习研究的一个关键方向。 . 本项目旨在建立深度神经网络的学习理论,阐明深度学习泛化的原理,为设计更优的深度学习策略与算法提出理论指导。项目在执行过程中分析影响泛化能力的两个方面: 损失函数的特性以及优化算法的行为,全面揭示这二者对深度网络泛化能力不同程度的影响。进一步,我们以此理论探索为基础,已经发展了一系列在小样本、噪声样本下以及对抗环境下提高模型泛化能力的模型与方法;同时开发了收敛速度快、泛化能力优异、稳健性优秀的优化算法。并成功的将这些算法应用于图神经网络相关应用、计算机视觉、交通预测问题中。. 通过以上这些探索与实践,项目在深度学习模型的泛化能力理论的研究产出了显著的科研成果,发表CCFA类以上会议或期刊论文10篇,研究成果被相关学术媒体报道。在人才培养方面,项目培养博士研究生 1人, 硕士 3 人。特别地,项目负责人朱占星因多个项目成果获得阿里达摩院青橙奖(全国仅 10 位)。以上项目成果均超额完成预期项目目标。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
监管的非对称性、盈余管理模式选择与证监会执法效率?
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
针灸治疗胃食管反流病的研究进展
卫生系统韧性研究概况及其展望
动态深度与宽度神经网络的泛化误差模型
深度神经网络的margin理论
深度神经网络的学习理论
深度神经网络中的特征投影理论