面向高性能云平台的并行程序优化关键技术研究

基本信息
批准号:61472201
项目类别:面上项目
资助金额:84.00
负责人:翟季冬
学科分类:
依托单位:清华大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:李焱,刘明亮,林恒,蒋运韫,张峰,汤雄超,冯时,杨弋,朱晓伟
关键词:
并行程序高性能计算云计算性能优化
结项摘要

With the development of cloud computing as well as the emergence of high performance computing cloud, more and more users begin to run a variety of parallel applications on such platforms. However, the complex cloud pricing models, flexible cloud resource allocation models, non-customized communication networks and significant system noise have brought new challenges to execute large-scale parallel applications on high performance cloud platforms. To solve these problems, this project focuses on the following points: First of all, we propose a semi-elastic virtual cluster computing model based on high performance computing cloud. Through aggregating the demands from multiple users, our system can achieve cloud resources provisioning with different types of reserved instances to optimize its overall cost effectiveness. It can also intelligently control the virtual cluster capacity and plan its resource distribution across different cloud pricing classes. Second, we propose utilizing learning-to-rank to perform black-box performance/cost predictions. To tackle the high-dimensional parameter exploration space unique to cloud platforms, we enable affordable, reusable, and incremental training guided by Plackett and Burman Matrices. Finally, according to the characteristics of high performance computing cloud, we propose using static analysis to automatically overlap communication and computation in parallel applications. We also propose using performance assertion to detect system noise on high performance computing cloud.

随着云计算的发展以及面向并行计算领域优化的高性能云平台的出现,越来越多的用户开始在高性能云平台上运行各种科学计算程序。但是,复杂的云平台计价模型、灵活的云资源配置模式、非定制的通信网络以及显著的系统噪音等因素给高性能云平台上运行大规模并行程序带来新的挑战。.针对上述问题,本项目研究工作包括:首先,提出面向高性能云平台的半弹性虚拟集群计算模型。通过聚合大量用户的作业请求,实现统一的云资源调度和管理,并根据作业规模动态调整虚拟集群大小,降低用户使用成本并提高作业运行效率。其次,提出基于学习排序的方法实现自动预测给定并行程序的最优云配置方案。针对云平台资源配置组合空间爆炸的问题,提出基于PB矩阵的统计方法对高维参数空间进行降维。最后,针对高性能云平台的特点,提出采用静态分析的技术实现并行程序的通信自动隐藏,以及基于性能断言的技术在线检测云平台上存在的系统噪音,提高并行程序的性能和可扩展性。

项目摘要

随着云计算的发展以及面向并行计算领域优化的高性能云平台的出现,越来越多的用户开始在高性能云平台上运行各种科学计算程序。但是,复杂的云平台计价模型、灵活的云资源配置模式、非定制的通信网络以及显著的系统噪音等因素给高性能云平台上运行大规模并行程序带来新的挑战。.针对上述挑战,本项目研究以下内容: 第一,对最新的Amazon的高性能云平台进行了大量的测试,并与本地集群系统进行了对比分析。通过分析,我们发现对于含有大量小消息传输的并行程序,在当前的云平台上具有较差的可扩展性。对于含有大消息传输的并行程序,在当前的云平台上,表现了更好的可扩展性。第二,实现了基于学习排序的方法自动预测给定并行程序的最优云配置方案。针对云平台资源配置组合空间爆炸的问题,提出基于PB矩阵的统计方法对高维参数空间进行降维。实验结果表明,本方法可以处理不同领域、存储需求的应用程序,针对性能和花费,都能获得最优或者近似最优的配置。第三,实现了面向高性能云平台的半弹性虚拟集群计算模型。通过聚合大量用户的作业请求,实现统一的云资源调度和管理,并根据作业规模动态调整虚拟集群大小,降低用户使用成本并提高作业运行效率。实验结果表明,提出的方法可以比用户单独在云平台上提交作业,平均降低60%的成本,而且不影响用户的等待时间。第四,实现了基于静动态结合的系统性能噪音在线检测工具,对高性能计算机上的大规模并行应用程序具有适用性。实验结果表明,我们的方法在16384进程上,引入的性能开销小于4%。第五,本项目共发表17篇学术论文,其中有8篇发表在CCF A类会议或期刊上;申请或授权专利5项。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
2

特斯拉涡轮机运行性能研究综述

特斯拉涡轮机运行性能研究综述

DOI:10.16507/j.issn.1006-6055.2021.09.006
发表时间:2021
3

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

DOI:10.3969/j.issn.1002-0268.2020.03.007
发表时间:2020
4

氯盐环境下钢筋混凝土梁的黏结试验研究

氯盐环境下钢筋混凝土梁的黏结试验研究

DOI:10.3969/j.issn.1001-8360.2019.08.011
发表时间:2019
5

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022

翟季冬的其他基金

相似国自然基金

1

并行、多平台“云测试”的关键技术研究

批准号:61379045
批准年份:2013
负责人:张震宇
学科分类:F0203
资助金额:73.00
项目类别:面上项目
2

面向高性能计算平台的多级层次结构并行存储系统的优化技术研究

批准号:61872299
批准年份:2018
负责人:廖剑伟
学科分类:F0204
资助金额:61.00
项目类别:面上项目
3

云平台并行数据流程序的中间数据管理优化技术

批准号:61202065
批准年份:2012
负责人:刘杰
学科分类:F0202
资助金额:23.00
项目类别:青年科学基金项目
4

面向云平台短时作业的集群调度器配置优化关键技术研究

批准号:61872337
批准年份:2018
负责人:韩锐
学科分类:F0202
资助金额:64.00
项目类别:面上项目