大数据机器学习分布式算法的可行性理论

基本信息

批准号：61573326

项目类别：面上项目

资助金额：64.00

负责人：张永全

学科分类：

依托单位：中国计量大学

批准年份：2015

结题年份：2019

起止时间：2016-01-01 - 2019-12-31

项目状态：已结题

项目参与者：Simeon Keates,孙建永,季家兵,王成,银俊成,梁珣,车四方

关键词：

分类学习理论泛化性分布式学习算法大数据

结项摘要

Along with the coming of the Internet era, big data characterised by large volume, high complexity and low-density value has been a hotspot in industry and academic. The strategic importance of the big data technology lies not only on collecting and storing informative data, but on processing and inferring from these data for valuable information. Distributed computing structure is a solution to the storing of big data. Hence, it is thus imperative to develop new learning algorithms and establish learning theories based on distributed computing structure. The development of distributed learning algorithms and the establishment of learning theories are the core of present big data research. In the project, we intend to mix theories and methods in data analysis, approximation theory and stochastic optimization and others to carry out the following research: 1) to carry out the feasibility analysis for the distributed learning algorithms based on data sampling, stochastic approximation and relevant probability inequalities; 2) to study in what conditions the big data be divided to reserve the feasibility of the distributed algorithms using the direct, converse theorems and entropy; 3) to apply the distributed learning algorithms to big data in Tecent Ltd. to justify the theoretical results. The project will 1) result in new distributed learning algorithms and new theoretical analysis results; 2) further improve the real practical applications in big data.

随着互联网的发展, 具有多变、复杂等特性的大数据已成为产业界和学术界关注的热点。大数据技术的战略意义不仅仅在于掌握庞大的数据资源，更在于对这些数据进行专业化分析与处理。如何从这些复杂的大数据中快速获得有价值的信息，迫切需要发展新的学习算法及理论。分布式机器学习算法是处理分布式存储大数据学习问题的必然选择；其可行性则是分布处理可行的前提,也是当今分布式学习算法研究的核心理论问题。本项目拟综合“数据分析”、“逼近论”和“随机优化”等学科中的理论和方法，从随机逼近的角度开展如下研究: 1)利用数据样本、随机逼近以及有关概率不等式，研究分布式学习算法的可行性理论；2)利用逼近论中的正、逆定理以及熵数等研究拆分参数的选择机制；3) 算法的可行性理论在实际巨量数据中的应用。本项目研究的完成将为分布式学习提供可行性理论与可行方法，以支持大数据分布处理(特别是分布式学习)技术的应用与发展。

项目摘要

随着互联网的发展,具有多变、复杂等特性的大数据已成为产业界和学术界关注的热点。大数据技术的战略意义不仅仅在于掌握庞大的数据资源，更在于对这些数据进行专业化分析与处理。如何从这些复杂的大数据中快速获得有价值的信息，迫切需要发展新的学习算法及理论。分布式机器学习算法是处理分布式存储大数据学习问题的必然选择；其可行性则是分布处理可行的前提,也是当今分布式学习算法研究的核心理论问题。本项目综合“数据分析”、“逼近论”和“随机优化”等学科中的理论和方法，从随机优化等角度开展如下研究:1)利用数据样本、随机逼近以及有关概率不等式，研究了有理逼近，获得了一些逼近的基础理论，基于这些理论建立了分布式学习算法可行性理论；2)利用随机逼近等方法建立了大数据随机加速学习算法，给出了该算法的收敛性以及误差的上界估计；3)基于概率模型等随机优化方法，提出了大数据框架下一种无监督学习环境下特征选择的学习算法，该算法在人工数据集和真实数据集上都具有较好的预测性能。本项目研究的完成将为分布式学习提供可行性理论与可行方法，以支持大数据分布处理(特别是分布式学习)技术的应用与发展。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2021

DOI：10.3778/j.issn.1002-8331.1903-0411

发表时间：2020

DOI：10.19328/j.cnki.2096-8655.2022.02.002

发表时间：2022

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：10.18307/2018.0503

发表时间：2018

张永全的其他基金

批准号：11301494

批准年份：2013

资助金额：22.00

项目类别：青年科学基金项目

相似国自然基金

关于大数据处理分布式学习算法的可行性理论研究

批准号：11401462

批准年份：2014

负责人：常象宇

学科分类：A0403

资助金额：22.00

项目类别：青年科学基金项目

面向大数据的随机森林机器学习理论与算法研究

批准号：61602482

批准年份：2016

负责人：张英华

学科分类：F06

资助金额：21.00

项目类别：青年科学基金项目

机器学习算法的margin理论

批准号：61375051

批准年份：2013

负责人：林通

学科分类：F0603

资助金额：79.00

项目类别：面上项目

面向弓网大数据的高铁在途运行安全机器学习理论与算法

批准号：61702518

批准年份：2017

负责人：周夏冰

学科分类：F06

资助金额：26.00

项目类别：青年科学基金项目

大数据机器学习分布式算法的可行性理论

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于铁路客流分配的旅客列车开行方案调整方法

新型树启发式搜索算法的机器人路径规划

"多对多"模式下GEO卫星在轨加注任务规划

智能煤矿建设路线与工程实践

2009 -2017年太湖湖泛发生特征及其影响因素

张永全的其他基金

神经网络随机学习算法的泛化性研究

相似国自然基金