面向百万万亿次高性能计算系统的容错计算模型研究

基本信息

批准号：61272142

项目类别：面上项目

资助金额：72.00

负责人：卢凯

学科分类：

依托单位：中国人民解放军国防科技大学

批准年份：2012

结题年份：2016

起止时间：2013-01-01 - 2016-12-31

项目状态：已结题

项目参与者：王小平,刘勇鹏,李旭,周旭,陈沉,杨博,张文喆,朱国梁

关键词：

高性能计算机容错并行计算模型

结项摘要

In Exa-scale High Performance Computer system design, the reliability of whole system is a serious problem we have to face, because researchers predict that the MBTF of Exa-scale HPC systems will be less than half an hour. Currentyl, how to provide a highly availble computing environment presents a great chanllenge..Due to the current parallel computing model lack of fault-tolerant ability, we have to rely on external fault-tolerant teniques, such as Checkpoint/Restart techniques, to improve the reliability of HPC systems. Checkpoint/Restart techniques record the running states of parallel application periodly, and resumes the execution from checkpoint file after the HPC system fails. However, with the MTBF of HPC system decreasing, the large overhead of checkpoint/Restart will induce the utility of Exa-scale HPC systems to be very low. Thus, Checkpoint/Restart techniques can't meet the requirements of Exa-scale HPC systems.. In this project, we propose a new fault-tolerant parallel computing model for the Exa-scale HPC system. In the new fault-tolerant computing model, we takes the advantage the emerging non-volatile memory technique(NVRAM) to provide sustainable memory storage support. The new fault-tolerant computing model:1) decouples the process from operating system and redesigns the OS only to be service provider for processes; 2)provides a new memory manage scheme to keep application's running environment sustainable across the system reboot; 3) proposes a new non-Volatile process model to run applications in persistent way and recover applications in place.. Comparing with the Checkpoing/Restart techniques, the new fault-torlrant parallel computing model improve the utility of the whole system a great and will be very useful in future Exa-scale HPC sytem.

现有并行计算模型不具备容错计算能力，需要借助检查点等外部容错技术才能实现持续计算，性能开销大，系统有效利用率低，无法满足未来百万万亿次高性能计算系统的运行需求。.本项目基于新型非易失存储技术（NVRAM），面向未来百万万亿次高性能计算容错需求，研究新的具备容错计算能力的并行计算模型。该模型改变了传统并行计算模型中依赖操作系统提供应用运行环境的设计思想，采取了系统服务和运行环境相分离的运行模式。通过研究基于NVRAM的分类存储模型和管理策略，设计新的上下文自包含的和支持原地恢复的非易失容错进程模型，新容错并行计算模型可以将用户应用的完整运行状态实时驻留在NVRAM中。并通过研究支持并行稳态运行的新型执行方式，支持用户应用原地快速恢复和持续执行。容错并行计算模型可有效克服传统检查点容错技术性能开销大，系统利用率低等问题，满足未来百万万亿次高性能计算的容错需求。

项目摘要

本项目研究基于新型非易失存储器件的进程稳态执行和容错技术。项目已完成原定计划，主要取得如下成果：（1）在系统软件层面提出基于非易失存储器件的存储管理，并向上层应用提供针对非易失存储器的动态内存分配接口，同时维护非易失存储器的物理页面分配及虚实映射的非易失性。和前人利用文件系统管理非易失存储器的工作相比，本项目提出的管理系统能有效减少管理开销，提升性能。（2）提出事物化编程模型供上层应用对非易失数据进行一致性更新。在实现事物化系统时，有效利用了非易失存储器读快写慢的特点，优化了非易失日志结构，减少了对非易失存储器的写操作，提升了整体性能和非易失存储器的使用寿命。（3）提出了基于非易失存储器的细粒度增量式检查点。利用动态内存分配器将对象分散在不同的虚拟页面上，同时利用硬件提供的页保护机制有效实现了细粒度的访存监控，从而减少每次检查点时的数据拷贝量，提升了性能。（4）提出了基于虚拟化硬件的细粒度访存监控机制。利用新型虚拟化硬件提供的两层地址映射，实现了细粒度的访存监控，同时实现了在程序运行过程中动态调整监控粒度，有利于程序分析和容错控制。（5）提出了新型容错进程模型。在传统硬件和运行进程中间加入一层中间软件层。在中间软件层上重新定义进程执行所需的全部资源，并将这些资源在非易失存储器上重新组织。同时，为了实现对进程状态的一致性更新，提出了版本号的思想，任何进程状态都附有一个版本号。通过版本号可有效实现进程状态的断电恢复和一致性迁移。综上，项目最终实现了一个整合操作系统，运行时，应用这三层的容错原型系统。操作系统层面实现非易失存储器件的管理，运行时层面提供易用接口支持，应用层面利用特殊编程接口进行编程。本课题共发表论文22篇，其中SCI期刊8篇，EI期刊或会议13篇，包括VEE、HPCC、PDP、Journal of Supercomputing等重要会议或期刊。培养博士生5人，硕士生2人。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：

发表时间：2020

DOI：10.11949/0438-1157.20201662

发表时间：2021

DOI：

发表时间：2017

卢凯的其他基金

批准号：31601634

批准年份：2016

资助金额：21.00

项目类别：青年科学基金项目

批准号：61203164

批准年份：2012

资助金额：24.00

项目类别：青年科学基金项目

批准号：61773168

批准年份：2017

资助金额：59.00

项目类别：面上项目

相似国自然基金

面向大规模高性能计算的低开销回卷恢复容错技术

批准号：61272401

批准年份：2012

负责人：杨金民

学科分类：F0207

资助金额：78.00

项目类别：面上项目

面向异构计算系统的非对称容错架构

批准号：61702328

批准年份：2017

负责人：冷静文

学科分类：F0204

资助金额：29.00

项目类别：青年科学基金项目

基于服务质量的高性能容错计算机可用性模型研究

批准号：61173020

批准年份：2011

负责人：左德承

学科分类：F0201

资助金额：59.00

项目类别：面上项目

基于量子点系统的容错量子计算研究

批准号：11005029

批准年份：2010

负责人：董萍

学科分类：A2502

资助金额：18.00

项目类别：青年科学基金项目

面向百万万亿次高性能计算系统的容错计算模型研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

一种基于多层设计空间缩减策略的近似高维优化方法

二维FM系统的同时故障检测与控制

扶贫资源输入对贫困地区分配公平的影响

LTNE条件下界面对流传热系数对部分填充多孔介质通道传热特性的影响

基于两阶段TOPSIS-DEA模型的我国商业银行经营绩效评价

卢凯的其他基金

核受体在甲硫氨酸调控褐飞虱卵壳发生中的功能研究

基于集对分析的交通信号控制评价及优化方法研究

城市路网协调路径集的形成机理与控制方法研究

相似国自然基金