In GPU clusters, each computer node is equipped with one or more GPU cards. GPU clusters are becoming more and more popular nowadays and will be widely used in data centers. FFT is a basic algorithm widely used in cloud computing, data mining, scientific and engineering computing. Because of the deep storage hierarchy of GPU clusters, it is a great challenge to transplant a large-scale FFT code from one GPU cluster to another while keeping the high performance. This research seeks to develop a FFT math library prototype of GPU clusters. The research work includes: (1) in order to get a FFT math library prototype, the programming methodology of GPU clusters must be researched; (2) based on the new programming methodology, a FFT math library prototype is developed; (3) the new technology, method and tools applied in the development of FFT math library prototype can be used in future work when transporting other similar algorithms. This research result will improve the using efficiency of GPU clusters.
GPU集群中的每一个节点配备GPU 卡,使机器的处理能力大幅提高。GPU 集群成为将来集群配置的重要模式,在未来的数据中心成为重要角色。FFT 算法是云计算、数据挖掘、科学与工程计算领域的基础算法。由于GPU 集群存储层次深,大规模FFT 算法在保持高性能的前提下移植到其他机器极具挑战。本项目针对大规模数据集,研究建立可移植的FFT 数学库原型。主要研究内容包括:(1)针对FFT数学库原型这一最终目标,研究GPU集群编程新机制;(2)基于GPU集群编程新机制,研究GPU集群性能模型,开发FFT数学库原型;(3)此研究过程中积累的关于GPU集群编程新机制的技术、方法和工具可以广泛应用于解决其他算法的GPU集群移植问题。项目研究成果将提高GPU集群硬件平台的使用效率。
本项目所进行的研究工作分为相辅相成的两方面:首先研究GPU集群程序设计方法的新机制;而后基于GPU集群程序设计方法的新机制,实现FFT数学库算法原型。当前GPU和GPU异构集群程序设计方法存在的最大问题是:缺乏有效的软件工具和编程接口,帮助程序员简化程序设计。我们初步实现了Parray接口:该编程接口使用数组类型对数据的物理存储和逻辑结构进行分离;提供统一的方式表示各种进程(线程)的创建以及它们之间的控制流转。Parray接口是位于MPI、Pthread和CUDA等程序库之上的一层软件层,它暴露了与性能相关的底层因素,又封装了实现细节,且不以牺牲性能为代价。Parray提供了GPU集群并行化的新语言机制。其主要思想是将多维数组扩展为多层次的树状结构;这一扩展间接反映了GPU集群树状存储器结构和不同处理器在集群架构中的异构性。数据的划分、分布、转置与变形均可以在新数组类型这一层次得以简洁表示和处理,而同类的线程也组成数组。在天河1A上,使用Parray书写的3维FFT代码最大运行到14336×14336×14336单精度复数的规模,共使用7168个节点。使用Parray实现的GPU集群3维FFT在天河1A上进行了性能测试,并与Intel MKL 10.3.1.048进行了比较,PKUFFT算法的性能远远超出MKL。同时,与MKL相比较,PKUFFT具有更好的性能延展性。
{{i.achievement_title}}
数据更新时间:2023-05-31
MSGD: A Novel Matrix Factorization Approach for Large-Scale Collaborative Filtering Recommender Systems on GPUs
采用深度学习的铣刀磨损状态预测模型
瞬态波位移场计算方法在相控阵声场模拟中的实验验证
基于EMD与小波阈值的爆破震动信号去噪方法
计及焊层疲劳影响的风电变流器IGBT 模块热分析及改进热网络模型
异构GPU集群混合粒度任务协同调度与动态均衡机制研究
CPU/GPU异构平台下并行保结构算法的研究
基于GPU集群异构并行计算的大规模多场耦合相场模型模拟研究
预算功率指导的高能效GPU集群任务调度模型与算法