With the rapid growth of large scale scientific computing and mass-user oriented e-Business, cloud computing based workflow systems need to handle a large number of data-intensive applications. The key to guarantee the system performance and user's satisfaction is an effective workflow scheduling strategy, and its vital issue is how to promote the efficiency of workflow execution and reduce the cost for massive data processing. To cope with the trend of hybrid clouds and its challenges, this project proposes an extended cloud workflow scheduling strategy, i.e. a novel workflow scheduling framework for data-intensive applications in hybrid clouds. The core idea of this framework is to extend the traditional runtime workflow scheduling to the whole workflow lifecycle, specifically including the placement of source data before workflow runtime (with the aim of reducing the time overhead and cost for transferring source data), the scheduling of intermediate data and computing tasks at workflow runtime (with the aim of reducing the workflow running time and cost by smart scheduling of intermediate data and computing tasks), and the intermediate data reduction after workflow execution (with the aim of reducing the storage cost for massive intermediate data). The outcome of this project will systematically address the problem of data-intensive workflow scheduling in hybrid clouds. The proposed framework can effectively reduce the workflow execution time and cost, and thus significantly improves user's satisfaction which is crucial for the success of a cloud computing based workflow system.
随着大规模科学计算和面向海量用户的电子商务的发展,基于云计算的工作流系统需要处理大量数据密集型的应用。高效的工作流调度策略是保证工作流系统性能和用户满意度的关键。如何提高云计算环境中的工作流执行效率并降低处理海量数据所需的资源成本成为工作流调度的核心问题。本项目针对混合云的发展趋势及其带来的挑战,创新性的提出了一个扩展的云工作流调度策略,其核心是将数据密集型工作流的调度从传统的仅在工作流执行中扩展到工作流的整个生命周期,即包括工作流执行前的原始数据放置策略(其目标是降低原始数据的传输时间和成本),工作流执行中的中间数据和计算任务调度(其目标是灵活调度中间数据和计算任务来优化工作流执行的时间和成本),以及工作流执行结束后的中间数据删除(其目标是降低海量中间数据的存储成本)。项目研究成果能系统地解决混合云中数据密集型工作流的调度问题,降低工作流执行的时间和成本,从而有效地提高用户的满意度。
工作流系统是提高数据分析和业务过程执行效率的重要手段。随着大规模科学计算和面向海量用户的电子商务的发展,基于云计算的工作流系统需要处理大量数据密集型的应用。其中,高效的工作流调度策略是保证工作流系统性能和用户满意度的关键,而工作流调度的核心问题就是如何提高云计算环境中的工作流执行效率并降低处理海量数据所需的资源成本。面对这个关键核心问题同时面向混合云的发展趋势及其带来的挑战,本项目创新性的提出了一个扩展的云工作流调度策略,其核心就是将数据密集型工作流的调度从传统的仅在工作流执行中扩展到工作流的整个生命周期。根据工作流执行前,执行中和执行后这三个生命周期阶段,我们提出的策略具体包括工作流执行前的原始数据放置(其目标是降低原始数据的传输时间和成本),工作流执行中的中间数据和计算任务调度(其目标是灵活调度中间数据和计算任务来优化工作流执行的时间和成本),以及工作流执行结束后的中间数据删除(其目标是降低海量中间数据的存储成本)。.本项目的研究围绕着以上三个核心内容,在工作流原始数据放置,中间数据和计算任务调度,以及中间数据删除方面提出了一系列新模型和新方法,并通过自主搭建的混合云平台(包含基于OpenStack的私有云平台以及基于Windows Azure的公有云平台)进行了充分的验证,证明了新模型和新方法的有效性。相关研究成果发表在10篇SCI期刊以及17篇EI/ISTP会议上。在学生培养方面,指导毕业硕士研究生3名,其中两人获得研究生国家奖学金。.本项目的研究成果较为系统地解决了混合云中数据密集型工作流的调度问题,有效的降低了工作流执行的时间和成本,从而进一步有效地提高了用户的满意度。此外,本项目的成果被有效的集成到了云工作流原型系统SwinFlow-Cloud中,大幅度提高了该系统的性能,从而为其商业化奠定了更加坚实的基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
论大数据环境对情报学发展的影响
基于SSVEP 直接脑控机器人方向和速度研究
拥堵路网交通流均衡分配模型
卫生系统韧性研究概况及其展望
面向实例密集型应用的云工作流绿色节能调度优化方法研究
混合云计算环境下多工作流的混合调度及费用优化
基于虚拟集群与容器技术的跨云数据密集型工作流计算研究
基于温度受限的低能耗混合存储系统数据调度策略研究