大规模机器学习问题的结构优化方法研究

基本信息
批准号:61273296
项目类别:面上项目
资助金额:83.00
负责人:陶卿
学科分类:
依托单位:中国人民解放军陆军炮兵防空兵学院
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:杨志林,储德军,汪群山,章显,王玉军,高乾坤,王惊晓,姜纪远,宋辉
关键词:
在线优化坐标下降方法结构优化统计机器学习
结项摘要

Machine learning is facing the great challenge arising from the endlessly increasing scale of data. How to cope with the large-scale even huge-scale data is a key problem in emerging area of statistical learning. Usually, there exist redundancy and sparsity in the training set of a large-scale problem, and there are structural implications in the regularizer and loss function of a learning problem. If we straightforward employ the gradient-type and black-box methods in batch settings, not only the large-scale problems can not be solved but also the structural information implied by the machine learning can not be exploited...Recently, the state-of-the-art scalable methods such as coordinate descent, online and stochastic algorithms, which is driven by the characteristics of machine learning, have become the dominant paradigm for large-scale problems...This project is devoted to the scalable optimization algorithms that can not only sufficiently exploit the structure of training sets but also effectively keep the structure of learning problems. In particular, we study the coordinate descent, online and stochastic algorithms for the minimization of regularized loss problems. The main content of this project includes the online and stochastic algorithms based on new optimization principles, the coordinate descent and stochastic algorithms keeping the structure of loss functions, and the coordinate descent algorithm for nonsmooth losses.

机器学习正面临着数据规模日益增长的严峻挑战,如何处理大规模甚至超大规模数据问题是当前统计学习亟需解决的关键性科学问题。大规模机器学习问题的训练样本集合往往具有冗余和稀疏的特点,机器学习优化问题的正则化项和损失函数也蕴含着特殊的结构含义,直接使用整个目标函数梯度的批处理黑箱方法不仅难以处理大规模问题,也无法满足机器学习对结构的要求。.目前,依靠机器学习自身特点驱动而迅速发展起来的坐标优化、在线和随机优化算法成为解决大规模问题的有效手段。.本项目主要研究充分利用训练数据结构和有效保证机器学习问题结构的大规模优化算法,特别是正则化损失函数优化问题的坐标优化、在线和随机优化算法,其中包括发展基于新优化原理的在线与随机算法、提出保证损失函数结构的在线及坐标优化算法和得到求解正则化非光滑损失的坐标优化算法等等

项目摘要

机器学习正面临着数据规模日益增长的严峻挑战,如何处理大规模数据是当前统计学习亟需解决的关键性科学问题。目前,依靠机器学习自身特点驱动而迅速发展起来的坐标优化、在线和随机优化算法成为解决大规模问题的有效手段。如何在这些优化算法中保持学习问题的结构是首先需要解决的问题。..本项目的总体目标是研究求解大规模机器学习问题保持结构信息的优化算法,特别是正则化损失函数优化问题的坐标优化和一阶梯度随机优化算法。具体来说:.(1)提出了一种随机的ADMM(Alternating Direction Method of Multipliers),证明了其对一般凸问题关于变分不等式标准具有O(1/t)的收敛速率。实验结果表明所提出的算法和当前主流算法具有几乎相同的识别速率,但基于变分不等式标准的收敛性能更好地描述学习速率。.(2)提出了一种基于批处理算法设计坐标优化算法的一般框架,在一阶梯度方法如对偶平均、镜面下降梯度算法和ADMM的基础上得到了若干坐标优化算法。我们还对不均衡分类中AUC优化问题、非监督学习的支持向量数据描述(SVDD)问题和截断L1正则化项的非凸优化问题,分别给出了坐标优化方法。.(3)在SGD中使用α-suffix平均和加权平均技巧求解强凸优化问题时均可以获得最优收敛速率。我们将这两种技巧从黑箱方法拓广至稀疏结构优化方法,得到了一些具有最优收敛速率的稀疏优化算法。为了获得更好的稀疏性,我们还将SGD的个体收敛速率以及在随机步长策略下的最优个体收敛速率结果拓广至稀疏结构优化问题。.(4)在保持损失函数结构的优化算法方面,本项目关注的是截断hinge 损失函数导致非凸优化问题中的支持向量结构保持问题。我们提出了一种多阶段优化方法,在优化过程中,保持损失函数不被线性化,而只对样本点集合进行事先删减。在此基础上,我们给出了一种求解大规模问题的坐标优化算法。..本项目总共发表论文16篇,其中SCI检索1篇,EI检索11篇。一些成果已经被重要的会议和期刊引用。培养的硕士研究生分别获得了安徽省优秀硕士论文2014、全军优秀硕士论文2013和CCDM2016(中国数据挖掘会议)最佳学生论文奖。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

DOI:10.3969/j.issn.1002-0268.2020.03.007
发表时间:2020
5

气载放射性碘采样测量方法研究进展

气载放射性碘采样测量方法研究进展

DOI:
发表时间:2020

陶卿的其他基金

批准号:60175023
批准年份:2001
资助金额:19.00
项目类别:面上项目
批准号:60575001
批准年份:2005
资助金额:23.00
项目类别:面上项目
批准号:61673394
批准年份:2016
资助金额:65.00
项目类别:面上项目
批准号:60975040
批准年份:2009
资助金额:29.00
项目类别:面上项目

相似国自然基金

1

面向大规模机器学习的高效优化算法研究

批准号:61806128
批准年份:2018
负责人:彭涵阳
学科分类:F0603
资助金额:25.00
项目类别:青年科学基金项目
2

大规模机器学习的在线方法与实现

批准号:61572017
批准年份:2015
负责人:张志华
学科分类:F0605
资助金额:55.00
项目类别:面上项目
3

大规模优化问题的数值方法

批准号:18670498
批准年份:1986
负责人:赵风治
学科分类:A0405
资助金额:0.50
项目类别:面上项目
4

针对大规模机器学习问题的一阶非凸与随机优化算法理论与应用研究

批准号:61906200
批准年份:2019
负责人:孙涛
学科分类:F0603
资助金额:25.00
项目类别:青年科学基金项目