面向E级计算可靠性墙问题的关键技术研究

基本信息
批准号:61303068
项目类别:青年科学基金项目
资助金额:23.00
负责人:王之元
学科分类:
依托单位:中国人民解放军国防科技大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:易晓东,徐新海,杜云飞,所光,周云,任小广,邹顺,黄达,刘逊韵
关键词:
系统结构可靠性墙容错E级计算性能
结项摘要

Currently, system performance of high-performance computers is increased all by parallel processing. With the growth of system size, especially when the computation scale reaches Exascale levels, reliability wall constitutes the great challenge for the high-performance computers. This project is based on the research and technology accumulation of our team on computer architecture and fault tolerance, and to meet the need of high efficiency Exascale computing. To alleviate or remove the reliability wall problem, this project aims to research the model and theory of reliability wall, lightweight checkpoint/restoration, scalable fault tolerance mechanism based on hardware redundancy and fault tolerance mechanism based on application features. In addition, this project will verify above mentioned model, theory and techniques using hardware/software verification platform, to achieve scalable fault tolerance technology and guarantee the efficient operation of Exa-scale computing systems. This project expects to publish more than 8 high-level academic articles, attend international conference more than 2 times, and train 4-6 graduate students.

当前,高性能计算系统都采用并行处理方式显著地提高系统性能。随着系统规模的增长,尤其是增长到E级(百万万亿次)计算规模时,可靠性墙是其面临的巨大挑战性问题。因此,为了缓解或消除可靠性墙问题,本项目计划基于课题组在计算机系统结构、容错技术等方面的研究成果和技术积累,面向未来E级计算的高效能需求,研究可靠性墙瓶颈模型和理论,以及轻量级检查点/恢复、基于硬件冗余的可扩展容错和基于应用特征的容错技术,并运用软硬件验证平台对上述模型、理论和技术进行验证,以实现可扩展的系统容错,保证未来E级计算系统的高效持续运行。本项目计划发表高水平学术论文8篇以上,参加国际学术会议2人次以上,培养研究生4-6人。

项目摘要

本项目顺利完成了预先制定的研究计划,同时针对近来计算机系统结构、机器学习、先进使能技术等领域的重要进展,增加了大规模计算系统可靠性支撑、智能计算、先进使能计算等方向的研究内容。取得的主要成果包括:1.提出了可靠性墙瓶颈模型,提出异步I/O技术和应用级检查点场数据计算调度的方法。从理论上建立了故障传播行为模型,并给出了相关求解算法。基于offload编程模型设计并实现了面向容错的编程模型框架FT-offload。论文发表在《Scientific World Journal》、ICECEE 2015等国际期刊和会议上。2.针对大数据应用和计算流体力学,提出了基于网格采样的双模冗余检错与应用级checkpointing混合的容错方法,基于非负数据的流形理论及并行流形正则化非负矩阵分解方法及其优化技术等,论文发表在《Parallel Computing》、SPAC2014国际期刊和会议上。3. 利用机器学习方法针对磁盘故障预测展开研究,并进一步将机器学习方法与不同应用交叉融合展开研究,提出基于结构平衡理论的机器学习算法。论文发表在《IEEE Transactions on Knowledge and Data Engineering》、ICDE2016等国内外期刊和会议上,1篇获会议最佳论文奖,1篇受邀收录在专著中。4.根据新型存储计算器件忆阻器所具有的天然容错性,创新性地运用忆阻器的运算存储融合的思想构建带有自治容错功能的存储器,为提高基于忆阻器的阻变存储器的可靠性研究提供了新的思路,并有望在物理器件上消除可靠性墙。相关成果授权国家发明专利1项,论文发表在《Chinese Physics B》等国内外期刊上。5.项目分别针对与可靠性相关的通信特征和能耗展开研究:从理论和测试两个方面验证大规模并行计算的通信满足幂律分布特征;提出了能耗墙量化度量模型和理论,发现网络静态能耗是导致系统产生能耗墙的关键因素之一,并进而提出了基于网络拓扑图划分的网络静态能量管理方法。相关成果申请国家发明专利2项,论文发表在《IEEE Transactions on Computers》、HPCC2015等国际期刊和会议上。三年共发表学术论文18篇,其中国际期刊9篇/国内核心刊物2篇、国际会议8篇/国内会议1篇、SCI检索9篇、EI检索9篇、ISTP检索1篇。已培养博士6名、硕士2名,均已顺利毕业。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
3

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
4

特斯拉涡轮机运行性能研究综述

特斯拉涡轮机运行性能研究综述

DOI:10.16507/j.issn.1006-6055.2021.09.006
发表时间:2021
5

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019

王之元的其他基金

相似国自然基金

1

面向E级计算的高突发带宽I/O缓冲存储系统关键技术研究

批准号:61802418
批准年份:2018
负责人:欧洋
学科分类:F0204
资助金额:25.00
项目类别:青年科学基金项目
2

面向E级计算的并行代数多重网格新型算法研究

批准号:61370067
批准年份:2013
负责人:徐小文
学科分类:F0204
资助金额:78.00
项目类别:面上项目
3

面向E级计算的高效能片上光交换单元

批准号:61802290
批准年份:2018
负责人:李慧
学科分类:F0204
资助金额:26.00
项目类别:青年科学基金项目
4

面向E级计算的纠删码机群文件系统研究

批准号:61502454
批准年份:2015
负责人:邢晶
学科分类:F0204
资助金额:20.00
项目类别:青年科学基金项目