In recent years, High Performance Computing in the cloud has become a hot research point. As an important technical means of High Performance Computing, the performance of parallel computing will determine the future of High Performance Computing. The virtual machine and massive data become important factors that affect performance of parallel programs, how to automatically locate performance bottlenecks of parallel programs and analyze causes becomes a difficult problem. This research project researches and establishes the runtime performance model of parallel programs in the cloud considering the load, the architecture of hardware and software, the changes of system state, so as to provide a reliable basis for performance analysis of parallel programs; study performance analysis method of MPI parallel program in the cloud, propose the clustering and rough sets based performance bottlenecks locating and bottlenecks cause analysis methods; study performance analysis method of MapReduce parallel program, through critical path method, locate bottleneck of MapReduce parallel program, analyze the causes of performance bottlenecks by creating a tree augmented naive Bayesian network; develop one performance analysis tool for parallel programs ,and carry through experimental validation with several parallel program instances. The results of this research can improve the efficiency of parallel programs in the cloud, and can provide low-cost, efficient parallel programs running support for scientists and engineers, which has important theoretical significance and practical value.
近年来,云中高性能计算成为研究热点,作为高性能计算的重要技术手段,并行计算的性能将决定云中高性能计算的未来。虚拟机和海量数据成为影响云中并行程序性能的重要因素,如何自动定位并行程序的性能瓶颈并进行原因分析是一个难点问题。本课题研究并建立考虑负载、软硬件体系结构、系统状态改变的云中并行程序运行时性能模型,为并行程序性能分析提供可靠的基础;研究云中虚拟机环境下MPI并行程序的性能分析方法,提出基于聚类和粗糙集的方法进行性能瓶颈定位和瓶颈原因分析;研究MapReduce并行程序性能分析方法,通过关键路径方法定位MapReduce并行程序的性能瓶颈,并通过创建树增强朴素贝叶斯网络对性能瓶颈原因进行分析;开发云中并行程序性能分析工具,通过并行程序实例进行实验验证。本课题研究成果对于提高云中并行程序的效率,为科学家和工程师们提供低成本、高效的并行程序运行支持,具有重要的理论意义和实用价值。
近年来,云和大数据技术取得了快速的发展,并在学术界和工业界展开了广泛的应用,其中并行计算对于推动云和大数据技术的发展起到了重要作用,与传统并行计算相比,云和大数据平台中并行计算的分布性、动态性要求计算平台具有可靠的性能保证。本项目针对云和大数据平台的性能优化问题,研究了虚拟机环境下MPI并行程序的性能分析方法、大数据平台中MapReduce并行程序的性能分析方法并研发了相应的性能分析工具,取得了预期成果:(1)使用Instrumentation和Sampling相结合的方法收集运行在Xen虚拟机上的MPI并行程序性能数据,并使用粗糙集方法分析产生内部和外部瓶颈的原因;(2)提出了一种包含用户应用层、大数据框架层、操作系统层、体系结构层和基础设施层的五层大数据系统性能模型,并将MapReduce并行程序的性能瓶颈划分为四个类别:节点瓶颈、任务瓶颈、阶段瓶颈和用户代码瓶颈,同时提出了相应的瓶颈定位和分析方法,包括PAM(Partitioning Around Medoid)聚类、主成分分析法、粗糙集方法等,实验验证了上述方法的有效性;(3)研发了MPI并行程序和MapReduce并行程序性能分析工具,并通过应用实例进行了实验验证。在上述研究的基础上,本项目还进行了扩展研究,研究了Spark大数据平台的性能优化方法,取得了相应的研究成果:(1)提出了一种基于成本的Spark大数据平台性能模型;(2)提出了一种基于机器学习的Spark参数自动优化方法、一种支持硬实时场景的Spark调度机制和一种Spark平台Shuffle过程压缩算法决策方法,并对上述方法进行了实验验证;(3)研发了一个Spark平台性能监控和管理工具。本项目研究成果对于MPI和MapReduce并行程序的性能分析和优化、Spark大数据平台的性能优化具有重要的参考价值,对于优化云和大数据平台Hadoop、Spark的资源利用率进而降低数据中心能耗具有重要意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
论大数据环境对情报学发展的影响
基于LASSO-SVMR模型城市生活需水量的预测
内点最大化与冗余点控制的小型无人机遥感图像配准
基于多模态信息特征融合的犯罪预测算法研究
GPU并行程序自动优化方法研究
程序并行化及并行程序设计环境研究
并行程序调试方法和工具的研究
基于数据流分析的顺序程序并行转换智能化方法的研究