Scientific workflows can improve the automation of scientific processes with the capabilities of the integration, construction and coordination of heterogeneous distributed data, services and tools. Tasks in a scientific workflow may be either data-intensive or computation-intensive in many domains nowadays. Thus, scientific workflows using the cloud as their computation environment often mix multiple parallelization patterns. The proposal explores key approaches and theories to enable the optimization of the execution of scientific workflows. The proposed approaches and theories can improve the execution efficiency and reduce the financial cost of scientific workflows with mixed parallelization patterns in cloud. Contributions include: (1)A data caching policy is proposed based on the concept and approaches that can realize efficient task data sharing through the optimization of data splitting. (2)Approaches to the construction of the workflow execution plans and the estimation of the virtual machine amount and types are proposed, which can be adaptive to the dynamic cloud environment, especially to the dynamic charging policies in cloud. The approaches can also improve the utility of virtual machine resources. (3)An approach to the execution optimization of scientific workflows with mixed parallelization patterns is proposed, which can balance workloads of virtual clusters and instances shared by tasks or sub-workflows with various parallelization patterns, and dynamically scale virtual machine resources based on the measures that can permit a workflow task to violate its local constraints with a certain probability.
科学工作流可集成、构造和协同分布异构的数据、服务和软件,其任务可同时属于数据和计算密集型,促使其选择云作为计算环境,并支持混合并行模式。针对云环境中支持混合并行模式的科学工作流,本申请以提高其执行效率,降低执行费用为目标,研究其执行优化涉及的关键问题。(1)提出一种数据并行任务的输入数据的分片方法,以提高多版本的工作流任务数据及其分片的复用率,并提出工作流任务的多版本数据集在云中的优化缓存策略。(2)建立适应云环境动态计价模式的工作流执行计划的生成方法和所需虚拟机的数量和类型的求解方法,以提高虚拟机资源的利用率,并形成科学工作流执行计划的评价理论。(3)提出混合并行模式科学工作流的动态优化方法,可实现多种并行模式的任务及工作流片段共享虚拟机集群及实例时的负载均衡,并通过允许任务弹性服从局部约束的策略以及当任务以一定概率违反该约束时的调整原则,支持虚拟机资源的动态伸缩,以保持资源的高利用率。
面向混合并行科学工作流,以提高其在云环境下的执行效率、降低执行费用、提高资源的利用率,研究了:(1)任务数据集的缓存和复用策略。首先,发现了科学工作流执行环境中,影响应用执行性能的关键因素及其相互关系,发现当数据量越大时,节点数越多应用执行的效率较高;但当数据量一定时,并非节点数越多,应用的执行效率越高;而当任务数接近节点数时,应用的执行效率较高。其次,通过研究科学工作流的数据副本的放置策略,提出了基于数据依赖度,兼顾传输时间开销的数据布局策略以及增量数据敏感的低成本数据放置方法,可有效的降低数据的传输次数和总量,复用中间数据,降低科学工作流的运行时间开销和运行成本。另外,提出了一种基于区块链的科学工作流的Provenance共享框架,可支持工作流片段在虚拟科学社区中的可靠和高效共享,通过避免不必要的任务重复执行,节约工作流的执行成本,并可用于验证科学工作流对应的试验的可重复性。(2)科学工作流的执行计划生成方法。从提高执行效率、降低成本、估算处理机资源数量和类型等不同的角度,分别提出了基于层间优化、允许违法局部约束、基于松弛时间优化、基于装箱理论的四种科学工作流执行计划生成和优化方法。(3)科学工作流的动态执行优化方法。为实现负载均衡,提高虚拟机资源的利用率,提出了基于马尔科夫过程模型的动态优化方法。另外,考虑到科学工作流的任务可能同时兼具数据密集和计算密集的特点,引入了一个真实的大数据环境下BP神经网络的数据分布并行训练案例,探讨了MapReduce和Spark工作流的应用及其优化方法,提出了基于局部权阵进化的BP神经网络MapReduce训练方法,能够极大地提高训练效率。该方法在精准扶贫及普惠金融的实际问题中得到了应用推广。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
面向云工作流安全的任务调度方法
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
一种改进的多目标正余弦优化算法
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
IaaS云环境下大规模科学工作流优化执行方法研究
云环境下面向大数据并行计算的工作流执行优化研究
混合云计算环境下多工作流的混合调度及费用优化
云计算环境中面向科学工作流管理的关键技术研究