High Energy Physics(HEP) computing environment includes storage resources, computing resources and network resources. Network resource is the core of computing system. However, in the past, scholars only seek to optimize storage resources and compute resources to improve computing environment performance, ignoring the importance of network performance for computing environmental performance. At the same time due to the great scale and complexity of shared computing and storage resources between various HEP experiments, there are no effective means for high-energy physics computing environment of existing network resource performance assessment; In particular, it is impossible to predict whether the current computing environment network performance can support the future large-scale computation. We put forward a method based on high energy physics computing environment infrastructure, combined with some data of the HEP experiments to indicate workflow and data flow parameters, using the network simulation, computing environment simulation and build a the high-energy physics computing environment network performance evaluation and prediction platform. We also optimize the performance of computing environment with the experiment results to ensure the stability, reliability and efficiency of high energy physics computing environment under the condition of the limited resources.
高能物理计算环境包括存储资源,计算资源,网络资源;其中网络资源是计算系统的核心。然而以往学者仅追求优化存储资源、计算资源来达到提升计算环境性能,忽略了网络性能对于计算环境性能的重要性。同时在不同的高能物理实验中共享计算和存储资源的规模庞大并且具有复杂性,目前尚没有有效手段对于高能物理计算环境的现有的网络资源性能进行评估;特别是当前计算环境网络性能能否支持未来大规模计算作业数量也是无法预测的。研究提出了一种以高能物理计算环境基础架构为基础,结合高能物理实验工作流和数据流,基于网络仿真、计算环境仿真方案设计高能物理计算环境网络性能评估以及预测平台,通过实验结果优化计算环境性能,保障高能物理计算环境在有限资源条件下的稳定性、可靠性、高效性。
以高速网络为核心,基于存储集群和计算集群的分布式计算环境,由于不同的高能物理实验共享计算和存储资源的规模庞大和并且具有复杂性,仅凭借监控系统难以对高能物理数据中心现有的资源性能进行有效评估;尤其是当前数据中心网络性能能否支持未来大规模计算作业数量也是无法预测的。基于上述问题提出了一种以高能物理数据中心架构为基础,结合高能物理实验工作流和数据流,基于仿真技术设计并实现了一种高能物理计算环境网络性能分析系统,该系统最大的特点是资源分配更具有灵活性,队列资源池可根据需要弹性伸缩,对计算环境性能预测与优化有很大的借鉴意义。在实际预测中,基于CSNS高性能计算环境(HPC)模型,通过动态调整作业数量级、调度策略进行性能预测分析,有效的帮助发现了HPC调度存在的问题。
{{i.achievement_title}}
数据更新时间:2023-05-31
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
特斯拉涡轮机运行性能研究综述
硬件木马:关键问题研究进展及新动向
基于LASSO-SVMR模型城市生活需水量的预测
基于多模态信息特征融合的犯罪预测算法研究
面向高能物理数据共享网络的网络全局监测与优化关键技术研究
高能物理科学计算环境可信安全关键技术研究
高能物理计算的I/O性能优化
面向高能物理分波分析方法的内存计算关键技术研究