基于弱同步策略的分布式深度学习并行优化理论与方法研究

基本信息
批准号:61672250
项目类别:面上项目
资助金额:63.00
负责人:蒋文斌
学科分类:
依托单位:华中科技大学
批准年份:2016
结题年份:2020
起止时间:2017-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:刘小白,郭人通,朱亮,范学鹏,池也,张杨松,叶阁焰,李陈希,石翔
关键词:
深度学习分布式系统弱同步理论并行优化
结项摘要

Deep learning is an emerging powerful method for big data analysis. The huge amount and high complexity make the parallelization for deep learning necessary. However, current ideas for parallelization of deep learning still mainly stay the primary stage with the strict synchronization model, matrixes parallel optimization, coarse-grained parallelization. The degree and efficiency of parallelization are very limited. To explore higher efficient parallelization methods and their related theories inside, this project plans to do the following researches: 1) studying the theories of stale synchronization model for deep learning to provide theoretical support for more flexible and efficient parallelization; 2) Exploring new multi-level data parallelization methods, based on layered stale synchronization strategies; 3) studying novel highly frequent data exchange methods by exploring pipeline-based stale synchronization strategies for model parallelization; 4) Exploring new distributed network parameter model management model, which can break the bottleneck of the current centralized model for parameters, based on stale synchronization theory. The achievements from this project are breakthroughs of the traditional parallelization of deep learning. They will provide more flexible and efficient strategies and powerful theories for distributed deep learning.

深度学习是当前大数据分析挖掘一个重要研究热点。巨量数据和超大网络规模使得采用并行分布式方法成为必然。然而,当前深度学习主流并行优化思想还处在以严格同步策略为基础、以矩阵计算优化、大粒度并行为手段的初级阶段,算法的效率和灵活性受到很大限制。为研究探索更高效的并行优化理论模型和方法,课题拟开展如下研究:1)深入研究分布式深度学习的弱同步策略及其理论基础,探索并行优化方法内在的基本规律和理论依据;2)研究多粒度融合的新的数据并行方法及分层弱同步策略,挖掘潜在的数据并行效能;3)研究参数模型并行中高频数据交换的流水线弱同步方法,突破数据交换的瓶颈;4)研究新的模型参数管理及维护模式,突破当前集中式参数服务模型的瓶颈,探索高效分布式参数管理方法及其在弱同步模式下的工作机制。本课题是对传统深度学习并行优化思想的一次突破,将为分布式深度学习提供更灵活高效的并行化策略及更强有力的理论支持。

项目摘要

本项目着重针对并行分布式深度学习系统中存在的同步策略效率偏低、资源利用率不高、数据组织粒度过大等若干科学问题,开展同步策略理论、并行分布式算法、模型维护与通信策略优化等方面的研究。具体包括:1)深入研究分布式深度学习的弱同步策略及其理论基础,探索并行优化方法内在的基本规律和理论依据,主要工作包括提出了分布式深度学习中基于组策略的弱一致性同步理论与方法,研究了基于陈旧补偿的参数梯度稀疏策略及近似理论模型,这些工作显著提高了分布式系统的训练效率。相关研究成果发表在CCGrid 2019, GPC 2020等会议上。另TOIT论文处于小修状态;2)研究多粒度融合的新的数据并行方法及高效的数据组织及内存管理方法,挖掘潜在的数据并行效能。主要工作包括提出了深度学习系统细粒度内存重用及优化方法,研究了基于空间复用的特征映射数据组织与内存管理机制、混合内存环境下深度学习数据预取策略等。显著提升了内存的利用率及对更多模型的支撑能力。相关工作发表在TACO 2019, PPoPP 2018, TACO 2018, ICCD 2019等会议和期刊上。其中TACO 2019的工作被该期刊主编推荐为期刊近期最值得关注的5篇论文工作之一;3)研究参数模型并行中高频数据交换策略及通信优化方法,突破数据交换的瓶颈,主要研究工作包括基于模型结构特性的混合通信优化方法、基于梯度参数特性的量化压缩优化传输方法、内存高效的分布式稀疏通信机制、基于固定比特数的梯度压缩及通信优化策略等,有效地降低了系统通信负载,提升了系统的性能;相关成果发表在APWeb 2020、GPC 2020等会议上;4)研究模型参数维护模式及并行分布式策略,探索高效参数管理及性能优化方法。主要工作包括细粒度模型参数维护模式及混合并行分布式方法、基于新型指令集的模型训练混合优化方法等。明显提升了众核系统的资源利用效率。相关成果发表在FGCS 2020、ICANN 2018等期刊和会议上。在此基础上,将上述研究成果和系统应用到了诸如医学图像分析等深度学习任务当中,取得了不错的效果。以上工作从多个层面突破了已有传统深度学习系统优化思想和方法存在的不足,为构建高效率、低损耗的分布式深度学习系统奠定了理论和实践基础。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
3

卫生系统韧性研究概况及其展望

卫生系统韧性研究概况及其展望

DOI:10.16506/j.1009-6639.2018.11.016
发表时间:2018
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

面向云工作流安全的任务调度方法

面向云工作流安全的任务调度方法

DOI:10.7544/issn1000-1239.2018.20170425
发表时间:2018

蒋文斌的其他基金

批准号:60903173
批准年份:2009
资助金额:18.00
项目类别:青年科学基金项目

相似国自然基金

1

基于弱监督和迁移学习的深度文本理解模型学习方法

批准号:61876144
批准年份:2018
负责人:管子玉
学科分类:F0606
资助金额:62.00
项目类别:面上项目
2

基于弱监督深度学习的三维模型分类方法研究

批准号:61906036
批准年份:2019
负责人:宋沫飞
学科分类:F0604
资助金额:24.00
项目类别:青年科学基金项目
3

基于混合弱监督深度学习的超声影像多组织结构识别与分割方法研究

批准号:61871135
批准年份:2018
负责人:郭翌
学科分类:F0125
资助金额:66.00
项目类别:面上项目
4

并行与分布式稀疏正则化学习

批准号:11871474
批准年份:2018
负责人:焦雨领
学科分类:A0501
资助金额:52.00
项目类别:面上项目