面向大规模并行计算机系统的应用级检查点关键技术研究

基本信息
批准号:61003087
项目类别:青年科学基金项目
资助金额:19.00
负责人:杜云飞
学科分类:
依托单位:中国人民解放军国防科技大学
批准年份:2010
结题年份:2013
起止时间:2011-01-01 - 2013-12-31
项目状态: 已结题
项目参与者:高珑,富弘毅,吴强,宋伟,贾佳
关键词:
应用级检查点可靠性大规模并行计算机系统容错开销优化
结项摘要

随着并行计算机系统规模的增加,系统的平均无故障时间远低于许多大规模科学计算程序的运行时间,系统可靠性问题已成为大规模并行计算机系统发展的重大挑战之一。应用级检查点技术是应对这一挑战的关键技术之一。为了充分发挥应用级检查点技术的性能优势,应用级检查点的容错开销优化已成为并行计算机系统容错技术的研究热点。本课题基于大规模并行计算的特点,展开面向大规模系统的多项应用级检查点容错开销优化的关键技术研究。这些关键技术的研究内容包括以下三项:面向数组的状态保存开销优化、快速高效的故障恢复以及多检查点的优化设置。本课题的目的是通过对上述关键技术的研究,有效降低应用级检查点技术的容错开销,使之能够更加有效地解决大规模并行计算机系统的可靠性问题。

项目摘要

应用级检查点技术是目前大规模并行计算机系统的主流容错技术之一,然而,容错开销仍然是应用级检查点技术面临的巨大挑战。为了充分发挥应用级检查点技术的性能优势,并促进其能够在大规模系统中取得良好应用效果,容错开销优化是关键问题所在。本课题针对应用级检查点容错开销的若干关键技术开展了深入研究,主要包括基于模板的并行复算代码生成方法,应用级检查点的理论建模和检查点选择方法和基于内存缓存的应用级检查点状态保存开销优化技术等方面。同时,由于多核系统和异构系统已成为大规模并行系统的基础组成部分,面向多核和异构系统的容错技术也是技术发展的重要趋势,本项目对多核系统上的OpenMP程序和异构系统上的GPGPU展开了应用级检查点的关键技术研究。本项内容主要包括面向多核系统的应用级检查点技术和面向异构系统的检查点容错技术等方面。并行复算代码生成方面,提出了一种新的基于模板的复算代码的生成方法,并给出了设计方法和编译自动化生成的实现框架,使并行复算的计算效率更高。应用级检查点理论分析方面,量化了“可靠墙”的概念,提出了可靠墙和广义可靠墙理论,并基于可靠墙理论,设计了同步和异步两种多检查点的设置方法。状态保存开销优化方面,提出了基于内存缓存的异步检查点技术,利用异步优化技术隐藏将数据从内存写入到文件系统的开销,实现了将应用级检查点中数据保存的I/O操作开销转变成写内存操作开销,大大优化了状态保存开销。面向多核系统的应用级检查点技术方面,提出了一种基于扩展数据流分析的OpenMP程序应用级检查点机制,并提出了针对OpenMP 程序的并行复算方法。同时,针对多核系统上的事务存储系统,提出了面向事务存储系统的错误检测和故障恢复方法。异构系统的检查点容错技术方面,提出了一种基于冗余线程的GPU多副本容错技术和面向异构系统的应用级检查点数据保存的优化方法,并提出了面向GPGPU 程序的部分复算方法以及基于部分复算的故障恢复方法。本课题上述研究为应用级检查点技术的容错开销优化以及在异构系统上的实现奠定坚实的理论和技术基础,同时,本项目的主要成果都在具体的大规模系统上进行了实验验证,在理论意义以及实际应用方面都有所突破,提出的方法不仅在学术上具有创新性,同时,具有很强的工程实用性,对提高生产力也有着重要的意义。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
3

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
4

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
5

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020

相似国自然基金

1

面向大规模并行计算机系统的软件低功耗关键技术研究

批准号:60903044
批准年份:2009
负责人:陈娟
学科分类:F0202
资助金额:18.00
项目类别:青年科学基金项目
2

面向新型异构众核系统的多设备协同并行计算关键技术研究

批准号:61702177
批准年份:2017
负责人:万烂军
学科分类:F0204
资助金额:24.00
项目类别:青年科学基金项目
3

面向大规模RFID系统的标签安全监测关键技术研究

批准号:61772551
批准年份:2017
负责人:陈鸿龙
学科分类:F0208
资助金额:63.00
项目类别:面上项目
4

面向大规模XML文档集的关键词检索系统关键技术研究

批准号:61170091
批准年份:2011
负责人:邓志鸿
学科分类:F0211
资助金额:57.00
项目类别:面上项目