Machine learning encounters two fundamental challenges in the big data age, namely how to design machine learning algorithms that can be applied to the big data process and how to provide a theoretical analysis framework for the algorithms. Distributed learning employs the “divide-and-conquer” strategy to attack the machine learning problem,and then becomes a state-of-the-art learning scheme in the big data era. Compared with enormous research activities on the applications, the theoretical study of the distributed learning algorithms lags heavily behind. In this project, we focus on presenting a systemic theoretical analysis for the distributed supervised learning in the framework of statistical learning theory. To this end, we will first verify the feasibility and outperformance of the distributed learning. Then, we will develop an exclusive error decomposition strategy for the distributed supervised learning and deduce its generalization error bound. Finally, we will present a theoretical guidance for how to design an efficient distributed learning algorithm.
进入大数据时代,机器学习面临两个重大挑战,即如何设计能够适用于大数据的机器学习算法,以及如何发展相应的理论来支撑其应用。针对第一个挑战,众多学者提出了利用分而治之策略来处理数据的分布式学习方法。虽然有大量的文献从工程的角度证明了这种方法的可行性,但是迄今为止还没有完整的理论来支撑其应用。本项目就分布式学习的统计性态、分布学习算法的收敛性、学习过程的复杂性等基础理论问题开展研究,拟建立一套完整的适用于分布式有监督学习的学习理论。主要内容包括:第一,从理论上证明分布式有监督学习的可行性及优越性;第二,建立适用于分布式有监督学习的泛化误差分解体系并导出其泛化误差。第三,从理论的角度揭示该如何有效地使用分布式学习算法来处理监督学习问题。
扣紧研究计划,项目组对大数据的分布式学习算法的可行性理论做了深入的研究。 在该项目的资助下,申请人提出了基“分而治之”思想的分布式核学习框架,并围绕分布式算法的统计性态、算法收敛性和学习过程的复杂性等基础理论问题开展研究,建立了一套完整的适用于分布式有监督学习的学习理论。主要内容包括:第一,提出采用与算子理论,在此理论体系下证明了分布式核学习的最优泛化性;第二,建立了适用于分布式有监督学习的泛化误差分解体系。第三,提出了分布式半监督学习,并证明了无监督数据,既能保护数据隐私,又能提高分布式学习算法的学习性能。
{{i.achievement_title}}
数据更新时间:2023-05-31
祁连山天涝池流域不同植被群落枯落物持水能力及时间动态变化
卫生系统韧性研究概况及其展望
面向云工作流安全的任务调度方法
城市轨道交通车站火灾情况下客流疏散能力评价
五轴联动机床几何误差一次装卡测量方法
半监督排序学习理论与算法研究
有监督和半监督多视图特征学习方法与应用研究
基于结构化学习的有监督词对齐方法研究
大数据多视图子空间非监督机器学习理论与方法