Supercomputers are advancing from Petascale computing to Exascale computing, the MTBF of the future Exascale computing system will down to only several tens of minutes. Because of heavy overhead, traditional passive-fault-tolerant techniques will not satisfy the need for the usability of the future supercomputers any more. By applying of failure prediction, active fault tolerant can deal with system faults before the faults happen. It becomes an important way to improve the usability for the future supercomputers. This project combines active and passive fault tolerant techniques, where on-line failure prediction is the key part of the strategy. The state of each computing node is acquired in real time, and the rules of system faults can be analyzed and learned from the state data. Then the learned results can be applied to predict the faults of the supercomputer. For the predicted faults, active fault tolerant methods will be actived before the faults realy happen. This proposal concerns researches of learning and prediction model, state acquisition, on-line learning algorithms, failue prediction strategy, rules extraction for system fault, active fault tolerant methods etc. The project aims at improving the prediction accuracy for system fault and reducing the overhead of fault tolerant, so the efficiency and sustainment for running of large-scale parallel applications can be achieved.
超级计算机正由当前的P级计算向E级计算迈进,专家预计E级计算系统的平均无故障时间仅有几十分钟,采用传统的被动容错方法因容错开销太大,将无法满足未来E级计算系统可用性的需求。主动容错利用故障预测技术提前对可能的故障进行处理,是提高系统可用性的重要途径。针对未来超级计算机系统面临的可靠性问题,本项目提出主被动容错相结合的容错策略,故障预测是该容错策略的关键。通过对各结点状态的实时获取与在线挖掘,获取各种故障的发生规律,然后利用学习的结果对系统故障进行预测,并对即将发生的故障实施低开销的主动容错,从而提高超级计算机的可用性。主要研究内容包括:故障在线学习与预测模型、系统状态数据的获取与预处理、故障在线学习方法、故障实时预测策略、故障规则获取技术、主动容错方法等。项目研究的目标是提高超级计算机的故障在线预测能力,降低系统容错开销,保证大规模并行应用的高效持续运行。
超级计算机正由当前的 P 级计算向 E 级计算迈进,专家预计 E 级计算系统的平均无故障时间仅有几十分钟,采用传统的被动容错方法因容错开销太大,将无法满足未来 E级计算系统可用性的需求。本课题提出主被动容错相结合的容错策略,并对超级计算机故障在线学习和预测模型、系统状态数据获取、系统状态数据的精简与特征提取;故障规律的在线学习与实时预测;主被动容错方法的研究与性能分析等关键技术进行研究。实验结果表明,课题组所研究的基于在线学习的故障预测技术对故障预测的准确率在80%以上,能够预测到绝大部分即将发生的故障。因此,将低开销的主动容错与传统的被动容错相结合,能够大大增加系统级检查点的间隔时间,从而降低容错的开销,提高系统的可用性。本课题四年研究期间,课题组提出了多种高效的算法,包括具有好的预测性能的在线学习算法,如:MAE、UMAE、GAE等,实现特定功能的高效算法,如FPDC, D-Tran, mCRC等。此外,课题组还自主研发了开源的机器学习算法库LibEDM。基于上述研究,课题组已经发表论文15篇,其中4篇进入SCI检索,11篇进入EI检索,已投稿正在审理中的论文2篇,申请专利一项。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于LASSO-SVMR模型城市生活需水量的预测
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于分形维数和支持向量机的串联电弧故障诊断方法
基于FTA-BN模型的页岩气井口装置失效概率分析
可扩展到Exaflops的超级计算机的算法容错技术研究
基于多任务的在线机器学习研究
基于健康监测的南极望远镜在线故障检测与主动容错关键技术研究
网络攻击行为的高效在线机器学习技术研究