CPU-GPU fat-node servers have been becoming the dominant trend on the high performance computing systems. The issues for hybrid workloads and dynamic power coordination have introduced great challenges to optimize the performance on CPU-GPU fat-node servers. This project is going to investigate the research of the key technologies on dynamic power coordination on CPU-GPU fat-node servers. The main contents are as follows: (1) While the multiple workloads simultaneously running on the fat nodes, we are going to establish the model of power and performance that estimates the workload's performance and power; (2) Integrating the power consumption of each computing component, characteristics of workloads and constrained power, a model to connect the workloads and power consumption on components can be set up, thereby designing the optimized coordinated power schemes; (3) Since the dynamically changing for submission rate of workloads and constrained power, we are going to implement a dynamical selection algorithm based on the reinforcement learning to dynamically select the best schemes that maximizes the performance of systems; (4) The proposed approach will be evaluated and verified based on the actual systems. This project will lead to serveral theories and key technologies for dynamically coordinated power on CPU-GPU fat-node servers that greatly promote the development of power coordinated technologies on high performance systems.
高性能计算系统中采用多路CPU及GPU的胖节点服务器已成为一种新的趋势。混合作业运行、动态协调计算组件功耗等问题给CPU-GPU胖服务器系统性能优化带来不小的挑战。本项目将系统的开展胖服务器的功耗动态协调关键技术研究,主要内容包括:(1)在多类型作业混合同时运行的情况下建立混合作业模型,评估作业的性能及功耗;(2)结合胖服务器中计算组件的功耗、作业特征及受限功耗等要素,建立作业及计算组件功耗关系模型,设计计算组件的协调功耗优化策略;(3)针对作业的动态提交率及受限功耗的变化,基于强化学习方法设计和实现一种动态选择算法挑选最优策略最大化系统性能;(4)在实际系统上测试与验证所提方法的有效性。本项目的成功开展将形成CPU-GPU胖节点服务器功耗协调研究的若干理论与关键技术,为推动功耗协调技术在高性能计算系统中的应用奠定基础。
为了改善高性能计算环境下云数据中心的功耗问题,本项目的研究主要集中在CPU/GPU胖节点服务器、工作流调度及资源管理和最优化算法三个方面展开。首先开展的工作是面向CPU/GPU胖节点服务器,建立了CPU/GPU系统功耗模型、作业性能模型等,分别面向单个胖节点服务器和服务器集群提出了基于强化学习和基于分类思想的功耗优化算法;接着,从服务器所处理的作业(工作流)角度,项目研究了工作流调度及资源管理的问题,建立了云数据中心的资源模型、调度模型、工作流模型等,针对复杂工作流提出了基于聚类思想和贪心策略的高效工作流调度算法,面向云环境下的任务调度优化融入自学习及近邻启发机制改进现有的粒子群算法提高种群多样性及收敛速度,同时面向任务-虚拟机-物理机的工作流联合调度问题提出了基于蚁群最优化和贪心策略的工作流联合调度算法;最后,面向多目标及复杂场景下的调度问题,针对高维多目标优化问题分别提出了一种基于动态资源分配的高维多目标优化算法,同时提出一种基于弱关联的自适应高维多目标进化算法。研究成果有利于提升高性能计算环境下云数据中心的功耗优化,为该领域的发展奠定理论基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
MSGD: A Novel Matrix Factorization Approach for Large-Scale Collaborative Filtering Recommender Systems on GPUs
内点最大化与冗余点控制的小型无人机遥感图像配准
面向低功耗无线网络无协调并发介质访问关键技术研究
面向高性能计算的高效平台虚拟化关键技术研究
面向大规模并行计算机系统的软件低功耗关键技术研究
面向Wiki的多维动态语义计算模型及关键技术研究