Along with the coming of the Internet era, big data characterised by large volume, high complexity and low-density value has been a hotspot in industry and academic. The strategic importance of the big data technology lies not only on collecting and storing informative data, but on processing and inferring from these data for valuable information. Distributed computing structure is a solution to the storing of big data. Hence, it is thus imperative to develop new learning algorithms and establish learning theories based on distributed computing structure. The development of distributed learning algorithms and the establishment of learning theories are the core of present big data research. In the project, we intend to mix theories and methods in data analysis, approximation theory and stochastic optimization and others to carry out the following research: 1) to carry out the feasibility analysis for the distributed learning algorithms based on data sampling, stochastic approximation and relevant probability inequalities; 2) to study in what conditions the big data be divided to reserve the feasibility of the distributed algorithms using the direct, converse theorems and entropy; 3) to apply the distributed learning algorithms to big data in Tecent Ltd. to justify the theoretical results. The project will 1) result in new distributed learning algorithms and new theoretical analysis results; 2) further improve the real practical applications in big data.
随着互联网的发展, 具有多变、复杂等特性的大数据已成为产业界和学术界关注的热点。大数据技术的战略意义不仅仅在于掌握庞大的数据资源,更在于对这些数据进行专业化分析与处理。如何从这些复杂的大数据中快速获得有价值的信息,迫切需要发展新的学习算法及理论。分布式机器学习算法是处理分布式存储大数据学习问题的必然选择;其可行性则是分布处理可行的前提,也是当今分布式学习算法研究的核心理论问题。本项目拟综合“数据分析”、“逼近论”和“随机优化”等学科中的理论和方法,从随机逼近的角度开展如下研究: 1)利用数据样本、随机逼近以及有关概率不等式,研究分布式学习算法的可行性理论;2)利用逼近论中的正、逆定理以及熵数等研究拆分参数的选择机制;3) 算法的可行性理论在实际巨量数据中的应用。本项目研究的完成将为分布式学习提供可行性理论与可行方法,以支持大数据分布处理(特别是分布式学习)技术的应用与发展。
随着互联网的发展,具有多变、复杂等特性的大数据已成为产业界和学术界关注的热点。大数据技术的战略意义不仅仅在于掌握庞大的数据资源,更在于对这些数据进行专业化分析与处理。如何从这些复杂的大数据中快速获得有价值的信息,迫切需要发展新的学习算法及理论。分布式机器学习算法是处理分布式存储大数据学习问题的必然选择;其可行性则是分布处理可行的前提,也是当今分布式学习算法研究的核心理论问题。本项目综合“数据分析”、“逼近论”和“随机优化”等学科中的理论和方法,从随机优化等角度开展如下研究:1)利用数据样本、随机逼近以及有关概率不等式,研究了有理逼近,获得了一些逼近的基础理论,基于这些理论建立了分布式学习算法可行性理论;2)利用随机逼近等方法建立了大数据随机加速学习算法,给出了该算法的收敛性以及误差的上界估计;3)基于概率模型等随机优化方法,提出了大数据框架下一种无监督学习环境下特征选择的学习算法,该算法在人工数据集和真实数据集上都具有较好的预测性能。本项目研究的完成将为分布式学习提供可行性理论与可行方法,以支持大数据分布处理(特别是分布式学习)技术的应用与发展。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
物联网中区块链技术的应用与挑战
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
关于大数据处理分布式学习算法的可行性理论研究
面向大数据的随机森林机器学习理论与算法研究
机器学习算法的margin理论
面向弓网大数据的高铁在途运行安全机器学习理论与算法