Many-core clusters have gradually become the mainstream of supercomputer architectures, which feature massive intra-node parallelism and hardware complexity. Traditional programming models and optimization techniques exhibit more limitations to deal with the issues of workload imbalance, nonlinear scalability of the parallel applications. To address the above problems, this program is based on one of the most important programming models in the area of high performance computing - MPI, and does research on MPI model extension and performance optimization. The main contents include: 1) Programming model extension for irregular applications. To efficiently describe the traditional irregular applications with workload imbalance and emerging large-scale deep learning algorithms with irregular communication patterns, we extend the MPI programming model to support irregular task parallelism and active message; 2) Communication performance model. We establish a novel performance model to abstract the multi-level hardware details, especially for the cache coherence architecture, predict the communication cost, and further guide the performance tuning of parallel softwares; 3) Communication performance optimization. Utilizing the techniques of shared address space, topology-aware communication and multi-level collaborative optimization, the intra-node communication overhead is reduced and overlapped. Communication interfaces are automatically tuned based on performance model.
众核集群已逐渐成为超级计算机的主流架构,其节点内大规模并行及复杂的硬件架构等特点使得传统编程模型及优化技术难以应对并行应用的负载不均衡、非线性可扩展等问题。为解决上述众核集群系统的并行难题,本项目基于高性能计算重要编程模型MPI,进行模型扩展及性能优化研究,主要内容包括:1)面向非规则应用的编程模型扩展研究。针对传统非规则应用的负载不均衡以及新兴的大规模深度学习算法的非规则通信模式等问题,扩展MPI模型以高效支持众核集群上任务并行及活动消息通信;2)通信性能模型研究。对多层次硬件信息进行抽象,特别是对缓存一致性架构上通信开销建模,形成一套新颖的面向众核集群的通信性能模型,进而对并行软件性能优化进行指导;3)通信性能优化研究。通过共享地址空间、拓扑感知以及多通信层次协同优化等,降低及隐藏多核及众核节点内的MPI通信开销,并利用基于性能模型的最优算法自适应选择方法,对通信接口实现进行自动调优。
超级计算机硬件的不断发展为高性能并行软件带来挑战。超级计算机具有并行度高、存储层次丰富、网络互联复杂等特点。当今并行编程模型及工具的发展难以满足当今超级计算机上高性能及高生产率并行软件开发的需求。. 首先,本课题扩展了MPI消息传递编程模型以高效支持非规则任务并行,从而显著降低通信冗余,提高非规则并行应用的性能及可扩展性。再次,提出一个新颖的缓存无关集合通信性能模型,并基于该模型充分挖掘集合通信操作在共享内存及分布式内存架构上的数据时间局部性及空间局部性,继而实现了一套新颖的缓存无关集合通信共性算法。最后,通过气候模拟、深度学习、以及材料模拟等实际应用,充分验证了本课题在MPI编程模型、性能模型、集合通信新算法、以及通信优化技术等方面所取得的成果。. 在不同众核架构上的实验测试表明,缓存无关集合通信算法相对于已有最新MPI实现平均获得2-3倍性能提升。基于按需通信的非规则编程模型,动力学模特卡罗并行算法在“神威-太湖之光”超级计算机上可扩展至10万CPU核(MPE),并行效率达到74%,通信量降低了97%;分子动力学算法可扩展至600万神威众核(MPE+CPE),并行效率达到85%;去中心化异步随机梯度下降(SGD)算法消除了全部进程参与的同步操作,降低通信开销。通过通信避免及层次化通信等优化技术,大气模式动力框架在“天河二号”超级计算机上可扩展至3.2万CPU核,0.5度网格分辨率情况下模拟速度达到15.6模式年/天。. 本课题研究成果具有多方面科学意义。第一,通过扩展MPI编程模型以支持非规则通信模式及非规则任务并行,在一定程度上解决了众核集群系统上非规则应用的负载不均衡问题。第二,通信开销通常是影响并行应用可扩展性的瓶颈。通过通信避免及层次化通信等优化技术,可显著降低并行应用的通信开销,从而缓解并行应用亚线性并行可扩展问题。第三,建立通信性能模型,达到准确性和简易性的良好折中,即在理论上简单易用,又能在实际应用中较准确的对性能、可扩展性等进行预估。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
特斯拉涡轮机运行性能研究综述
低轨卫星通信信道分配策略
内点最大化与冗余点控制的小型无人机遥感图像配准
片上众核集群体系结构关键技术研究
众核集群程序设计机制研究
众核处理器结构上的并行程序执行模型
面向激光聚变模拟的大规模异构众核系统可扩展并行算法与优化方法