因良好的易构建性和可扩展性,机群系统已成为生产性计算平台的首选,但随系统规模的不断增加,失效已经成为一种常态,已有研究显示它对性能和运行成本有着重要的影响,因而成为研究热点。系统的海量日志是失效分析的重要数据源,因为缺少全局时钟,数据源隐藏的信息通常会乱序,而且内容具有不完整性,因而失效分析成本极高,而现有工作主要基于数据的预处理做离线分析。本项目旨在探索可应用于海量系统日志的信息检索方法,在基于可检索的系统日志的基础上发展适用于大规模计算平台的失效分析方法,提供时序和空间相关的失效在线检索;进一步从负载、热量、功耗,软件老化等多因素的角度研究失效规律,及各因素对失效的独立、综合影响;挖掘失效模式,刻画其在时间和空间维度上的特性;探索失效关联机制和故障定位方法,及辅助的失效解决方案。 从而提高大规模计算平台的生产率,降低总拥有成本。
{{i.achievement_title}}
数据更新时间:2023-05-31
EBPR工艺运行效果的主要影响因素及研究现状
复杂系统科学研究进展
基于LS-SVM香梨可溶性糖的近红外光谱快速检测
神经退行性疾病发病机制的研究进展
基于MCPF算法的列车组合定位应用研究
基于众核计算平台的分析仿真并行加速方法
超大规模集成电路失效率分析方法研究
宽频声振耦合问题的大规模快速计算分析方法
大规模声振耦合模态分析的快速计算方法研究