可扩展到Exaflops的超级计算机的算法容错技术研究

基本信息
批准号:61003062
项目类别:青年科学基金项目
资助金额:18.00
负责人:姚二林
学科分类:
依托单位:中国科学院计算技术研究所
批准年份:2010
结题年份:2013
起止时间:2011-01-01 - 2013-12-31
项目状态: 已结题
项目参与者:陈明宇,李佳佳,朱鹏飞,王睿,崔泽汉,张秀霞,张初炼
关键词:
算法容错容错计算超级计算机可扩展性科学计算
结项摘要

为了达到更高的性能,超级计算机的规模越来越大,而整个系统的MTTF越来越短。传统的超级计算机容错主要基于checkpoint的模式。这种容错模式的效率和系统的规模是相关的,在现有的技术趋势下会随着处理器个数的增加而降低。为了扩展到Exaflops的规模,系统中处理器的个数将可能达到百万的量级,系统级的容错方法将很难获得高效率,在应用层级进行容错已经成为一种切实的需求。.算法容错是一种应用层级的容错技术,虽然其概念提出来的较早,但是由于实际需求不足,在高性能计算机系统中的应用还缺少深入的研究。将算法容错应用于可扩展到Exaflops规模的高性能计算,还有以下关键的问题需要解决:有效的冗余编码,并行算法流程的重新组织及设计,实现效率及可扩展性等。本项目研究算法容错技术在高性能科学计算领域的应用及实现,项目研究的成果能够为构建面向Exaflops的高性能计算机提供理论基础及关键技术。

项目摘要

随着高性能计算向着Exaflops(每秒10的18次方次浮点运算)规模的迈进,超级计算机在程序运行过程中出错逐渐成为必然的趋势。容错已经成为和并行性、功耗等并列的超级计算机的几大挑战性问题之一。程序运行中的错误按照其影响一般分为两类:硬错误和软错误,硬错误指的是系统中的某些部件在运行过程中停止工作,导致整个程序运行的中止;软错误一般并不会中止程序的运行,但是会影响程序计算结果的正确性。. 针对程序运行中的硬错误,我们提出了一种新型高效的算法级容错方法:热替换+后台恢复(Hot-Replacement Background-Recovery, HRBR)。对于运行过程中单个部件的出错,HRBR使得系统中其他大量的部件不用停下来等待出错部件的恢复,有很好的可扩展性。为了验证所提方法的有效性,我们针对高性能计算中广泛应用的基准测试程序HPL(High Performance Linpack)开发了初步的算法容错环境。理论预测表明HRBR在Exaflops的规模下,仍然能取得较高的容错效率。在1800个核的实验平台上,测试结果表明,HRBR相比目前最好的算法级容错方法,容错开销能够减少75%。LUPP(LU Decomposition with Partial Pivoting)是求解稠密线性方程组最高效的算法,在科学计算中广泛应用。针对LUPP运行过程中出现的软错误,我们提出了一种新型的算法级错误检测方法,相比目前最好的方法兼具时间上的灵活性和空间上的完备性。我们将提出的方法集成到了LUPP在基准测试程序HPL上的实现中,实验结果表明了所提方法的可行性。理论分析和实验结果均证明了我们的方法在检测LUPP程序运行过程中的软错误上非常高效。. 本项目在执行过程中共发表研究论文11篇,其中国际学术期刊论文3篇,国际学术会议论文8篇,其中包括高性能计算领域的著名国际会议ICS, IPDPS,PACT, 代码优化以及编译领域的著名国际会议PLDI, CGO等。本项目共培养硕士和博士研究生6名,其中已毕业博士2名,已毕业硕士1名,在读博士生3名。在国家自然科学基金的资助下,本团队对算法容错方向进行了系统研究,发展出一系列新型高效的算法级容错方法。本项目的研究达到了预期目标,我们的工作基本上与这一领域的国际最前沿成果保持同步。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022
2

物联网中区块链技术的应用与挑战

物联网中区块链技术的应用与挑战

DOI:10.3969/j.issn.0255-8297.2020.01.002
发表时间:2020
3

一种改进的多目标正余弦优化算法

一种改进的多目标正余弦优化算法

DOI:
发表时间:2019
4

瞬态波位移场计算方法在相控阵声场模拟中的实验验证

瞬态波位移场计算方法在相控阵声场模拟中的实验验证

DOI:
发表时间:2020
5

一种加权距离连续K中心选址问题求解方法

一种加权距离连续K中心选址问题求解方法

DOI:
发表时间:2020

姚二林的其他基金

批准号:61472395
批准年份:2014
资助金额:84.00
项目类别:面上项目

相似国自然基金

1

基于在线机器学习的超级计算机主动容错技术研究

批准号:61272141
批准年份:2012
负责人:蒋艳凰
学科分类:F0204
资助金额:81.00
项目类别:面上项目
2

计算机网络的容错性与可诊断性的研究

批准号:10701074
批准年份:2007
负责人:徐敏
学科分类:A0409
资助金额:15.00
项目类别:青年科学基金项目
3

视算超级计算机中并行处理技术研究

批准号:68973046
批准年份:1989
负责人:徐乃平
学科分类:F0204
资助金额:3.50
项目类别:面上项目
4

E级超级计算机需求感知的能量有效性优化算法研究

批准号:61902118
批准年份:2019
负责人:黄晶
学科分类:F0204
资助金额:29.00
项目类别:青年科学基金项目