大数据机器学习分布式算法的可行性理论

基本信息
批准号:61573326
项目类别:面上项目
资助金额:64.00
负责人:张永全
学科分类:
依托单位:中国计量大学
批准年份:2015
结题年份:2019
起止时间:2016-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:Simeon Keates,孙建永,季家兵,王成,银俊成,梁珣,车四方
关键词:
分类学习理论泛化性分布式学习算法大数据
结项摘要

Along with the coming of the Internet era, big data characterised by large volume, high complexity and low-density value has been a hotspot in industry and academic. The strategic importance of the big data technology lies not only on collecting and storing informative data, but on processing and inferring from these data for valuable information. Distributed computing structure is a solution to the storing of big data. Hence, it is thus imperative to develop new learning algorithms and establish learning theories based on distributed computing structure. The development of distributed learning algorithms and the establishment of learning theories are the core of present big data research. In the project, we intend to mix theories and methods in data analysis, approximation theory and stochastic optimization and others to carry out the following research: 1) to carry out the feasibility analysis for the distributed learning algorithms based on data sampling, stochastic approximation and relevant probability inequalities; 2) to study in what conditions the big data be divided to reserve the feasibility of the distributed algorithms using the direct, converse theorems and entropy; 3) to apply the distributed learning algorithms to big data in Tecent Ltd. to justify the theoretical results. The project will 1) result in new distributed learning algorithms and new theoretical analysis results; 2) further improve the real practical applications in big data.

随着互联网的发展, 具有多变、复杂等特性的大数据已成为产业界和学术界关注的热点。大数据技术的战略意义不仅仅在于掌握庞大的数据资源,更在于对这些数据进行专业化分析与处理。如何从这些复杂的大数据中快速获得有价值的信息,迫切需要发展新的学习算法及理论。分布式机器学习算法是处理分布式存储大数据学习问题的必然选择;其可行性则是分布处理可行的前提,也是当今分布式学习算法研究的核心理论问题。本项目拟综合“数据分析”、“逼近论”和“随机优化”等学科中的理论和方法,从随机逼近的角度开展如下研究: 1)利用数据样本、随机逼近以及有关概率不等式,研究分布式学习算法的可行性理论;2)利用逼近论中的正、逆定理以及熵数等研究拆分参数的选择机制;3) 算法的可行性理论在实际巨量数据中的应用。本项目研究的完成将为分布式学习提供可行性理论与可行方法,以支持大数据分布处理(特别是分布式学习)技术的应用与发展。

项目摘要

随着互联网的发展,具有多变、复杂等特性的大数据已成为产业界和学术界关注的热点。大数据技术的战略意义不仅仅在于掌握庞大的数据资源,更在于对这些数据进行专业化分析与处理。如何从这些复杂的大数据中快速获得有价值的信息,迫切需要发展新的学习算法及理论。分布式机器学习算法是处理分布式存储大数据学习问题的必然选择;其可行性则是分布处理可行的前提,也是当今分布式学习算法研究的核心理论问题。本项目综合“数据分析”、“逼近论”和“随机优化”等学科中的理论和方法,从随机优化等角度开展如下研究:1)利用数据样本、随机逼近以及有关概率不等式,研究了有理逼近,获得了一些逼近的基础理论,基于这些理论建立了分布式学习算法可行性理论;2)利用随机逼近等方法建立了大数据随机加速学习算法,给出了该算法的收敛性以及误差的上界估计;3)基于概率模型等随机优化方法,提出了大数据框架下一种无监督学习环境下特征选择的学习算法,该算法在人工数据集和真实数据集上都具有较好的预测性能。本项目研究的完成将为分布式学习提供可行性理论与可行方法,以支持大数据分布处理(特别是分布式学习)技术的应用与发展。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
3

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022
4

物联网中区块链技术的应用与挑战

物联网中区块链技术的应用与挑战

DOI:10.3969/j.issn.0255-8297.2020.01.002
发表时间:2020
5

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022

张永全的其他基金

批准号:11301494
批准年份:2013
资助金额:22.00
项目类别:青年科学基金项目

相似国自然基金

1

关于大数据处理分布式学习算法的可行性理论研究

批准号:11401462
批准年份:2014
负责人:常象宇
学科分类:A0403
资助金额:22.00
项目类别:青年科学基金项目
2

面向大数据的随机森林机器学习理论与算法研究

批准号:61602482
批准年份:2016
负责人:张英华
学科分类:F06
资助金额:21.00
项目类别:青年科学基金项目
3

机器学习算法的margin理论

批准号:61375051
批准年份:2013
负责人:林通
学科分类:F0603
资助金额:79.00
项目类别:面上项目
4

面向弓网大数据的高铁在途运行安全机器学习理论与算法

批准号:61702518
批准年份:2017
负责人:周夏冰
学科分类:F06
资助金额:26.00
项目类别:青年科学基金项目