分布式参数服务器架构的可扩展性研究

基本信息
批准号:61802358
项目类别:青年科学基金项目
资助金额:25.00
负责人:李诚
学科分类:
依托单位:中国科学技术大学
批准年份:2018
结题年份:2021
起止时间:2019-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:张辉,陈友旭,郭帆,郑一露,白有辉,苏景波,邵新洋,许冠斌,徐亮亮
关键词:
分布式计算系统动态自适应可扩展性参数服务器架构
结项摘要

The distributed Parameter Server architecture has been widely adopted by the mainstream machine learning systems. However, due to the lack of agile scalability, it is challenging for this architecture to rapidly adapt to dynamic changes in workloads and resources such as computing power or network bandwidth, in heterogeneous environments, thus limiting the development of relevant technologies and applications that expect real-time responses. To this end, this project aims to: (1) design a software-defined Parameter Server architecture, decoupling the parameter exchange and the node management modules, and offering workload-aware elastic scalability; (2) formalize a general model capturing the tension between the parameter synchronization mechanisms and performance in heterogeneous environments, guiding the choice of those mechanisms with better performance; (3) propose a dynamic data compression mechanism aware of changes in resources and loads, striking the reasonable balance between the data compression rate and available resources and speeding up the parameter exchange. Based on these three studies, we further plan to design and implement a highly scalable prototype system that demonstrates all above claims, to meet the unprecedented demands of vast machine learning applications.

分布式参数服务器架构是主流机器学习系统所广泛采用的系统架构方式。在大数据-大计算的背景下,由于缺乏敏捷的可扩展性,该架构难以快速应对计算任务量突发改变和异构环境中计算资源与网络带宽动态变化等状况,严重制约了对实时性要求较高的相关技术和应用的发展。本项目拟:(1)设计基于软件定义的新参数服务器架构,解耦参数传递与节点管理等功能模块,实现对计算任务量变化感知的弹性可扩展性;(2)建立异构环境中参数同步机制与系统性能制约关系的一般模型,通过建模分析和对比实验的方法指导不同应用选择适配的性能最优的同步机制;(3)提出资源和负载感知的数据压缩机制,寻求压缩率与计算和带宽资源之间的动态平衡,避免计算资源竞争和过度压缩,提高参数交换速率;基于这三方面的研究,设计实现原型系统进行验证,冀显著提高分布式参数服务器架构的可扩展性,以满足日益增长的机器学习应用的实际需求。

项目摘要

为在大数据集上高效地训练深度学习模型,利用大规模GPU集群的并行计算能力和数据并行训练方式已成常态。在数据并行训练中,节点间通过参数服务器(PS)或Ring-allreduce等同步架构在每次迭代中交换大量梯度。然而,在GPU架构创新和专用领域编译技术蓬勃发展的推动下,快速增长的计算能力导致更频繁的梯度同步。因此,梯度同步和并行计算之间存在着矛盾,严重制约了分布式参数服务器等同步架构的可扩展性。为此,本项目的研究及主要成果包括:. 1. 研究了压缩感知的可扩展梯度同步架构。首先提出一个通用、可组合的梯度同步架构 CaSync,通过通信、聚合和压缩算子解耦和组合来实现压缩感知的梯度同步。其次,重叠和批量执行计算和通信任务,将通信开销隐藏在与压缩有关的计算中,反之亦然。CaSync还采用了一种选择性的梯度压缩和切分机制,以决定是否压缩每个梯度,以及如何切分大梯度。CaSync可与多种压缩算法和同步策略适配。. 2. 研究了梯度压缩算法的敏捷开发和集成。设计梯度压缩工具包CompLL,为面向GPU的压缩算法开发和面向深度学习框架的集成提供了便利。CompLL 提供了统一的 API 抽象和专用领域语言,并实现了高度优化的通用压缩算子库。CompLL将开发者的算法逻辑描述转换为高效的底层GPU实现代码,并自动集成到DNN系统中,几乎不需要人工干预。. 3. 研究了大图上图神经网络并行训练的数据加载问题。首先,提出静态缓存策略,将频繁访问的图数据保存在空闲GPU内存中,引入支持缓存的数据加载机制,避免从主机内存的重复加载。其次,将数据并行应用于基于采样的图神经网络训练,通过数据划分和多GPU缓存,改善数据局部性,增加缓存顶点的总数,消除并发情况下的数据加载瓶颈。. 4. 研究了面向智能计算的大数据存储问题。海量小文件的存取对于面向智能计算的分布式存储系统提出了新挑战。为此,设计高效元数据预取和管理机制、利用新型存储硬件、重构分布式存储系统,以满足智能应用低延迟高吞吐的存储需求。. 本项目在SOSP、FAST、VLDB、SC等权威学术会议和ACM TOS、IEEE TPDS等国际重要期刊上发表论文17篇,申请专利3项。项目负责人李诚获得2021年ACM ChinaSys新星奖和ACM中国新星提名奖。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
3

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
4

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
5

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020

李诚的其他基金

批准号:81801209
批准年份:2018
资助金额:21.00
项目类别:青年科学基金项目
批准号:31860337
批准年份:2018
资助金额:40.00
项目类别:地区科学基金项目
批准号:31560389
批准年份:2015
资助金额:41.00
项目类别:地区科学基金项目
批准号:51603209
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:11805261
批准年份:2018
资助金额:26.00
项目类别:青年科学基金项目
批准号:31360292
批准年份:2013
资助金额:52.00
项目类别:地区科学基金项目

相似国自然基金

1

网络功能虚拟化可扩展性研究

批准号:61502462
批准年份:2015
负责人:姜海洋
学科分类:F0207
资助金额:20.00
项目类别:青年科学基金项目
2

分布式Web服务器的性能优化

批准号:60073040
批准年份:2000
负责人:鞠九滨
学科分类:F0207
资助金额:15.00
项目类别:面上项目
3

面向图计算应用的JVM可扩展性研究

批准号:61672345
批准年份:2016
负责人:臧斌宇
学科分类:F0203
资助金额:63.00
项目类别:面上项目
4

软件定义网络中流表管理的可扩展性研究

批准号:61502267
批准年份:2015
负责人:刘冰洋
学科分类:F0207
资助金额:21.00
项目类别:青年科学基金项目