To address the problems of dynamic workloads, uncertain task runtime caused by performance fluctuation of virtual machines (VMs), and uncertain VM live time caused by dynamic pricing in spot market, this project will carry out research on scheduling algorithms for optimized execution of middle to long-term parallel workloads and large-scale scientific workflows in cloud datacenter environments. Specifically, techniques on VM provisioning, multi-policies coordination, and policy selection based on time constrained simulation, will be first studied and used for cost-effective scheduling of middle-term to long-term parallel workloads. Secondly, techniques on probabilistic performance modeling, deadline division, and dynamic correction of deadline constraint violation, will be studied to implement reliable scientific workflow scheduling algorithms that can cope with uncertain task runtime. Thirdly, on-demand bidding, structure-based workflow partitioning, and selective checkpointing technologies, will be designed to achieve fault-tolerant scientific workflow scheduling algorithms that can adapt to uncertain VM live time. All the aforementioned algorithms will be verified and validated using real world parallel workloads and scientific workflows and by running on NUDT (National University of Defense Technology) Galaxy cloud datacenter and Guangzhou Tianhe 2 cloud datacenter. The application of this project will establish a solid algorithmic foundation for cost-effective, reliable, and fault-tolerant execution of parallel workloads and scientific workflows in cloud datacenter environments, and will help scientists efficiently perform scientific experiments by using cloud computing paradigm.
针对云数据中心负载动态变化、虚拟机性能波动带来的任务执行时间不确定、竞价拍卖型虚拟机价格动态变化导致的虚拟机存活时间不确定等问题,开展中长期并行负载与大规模科学工作流优化调度算法研究。一是研究利用虚拟机集群弹性配置、多策略协同、时间约束策略仿真优选技术,实现中长期并行负载的成本效益感知调度;二是研究利用概率性能建模、截止期划分、动态约束违背纠正技术,实现科学工作流的可靠调度;三是研究利用按需竞价、工作流结构剖分、选择性检查点技术,实现科学工作流的容错调度。依托国防科大银河云环境和广州超算中心天河二号云环境,采用并行负载踪迹和实际科学工作流对提出的算法进行测试验证。本项目的实施,将为中长期并行负载和大规模科学工作流在云数据中心环境下实现成本效益感知的容错可靠执行打下坚实的算法基础,为科学家利用云计算新模式高效开展科学实验做出积极贡献。
针对云数据中心负载动态变化、虚拟机性能波动带来的任务执行时间不确定、竞价拍卖型虚拟机价格动态变化导致的虚拟机存活时间不确定等问题,本项目开展了中长期并行负载与大规模科学工作流优化调度算法研究。特别地,提出了一种基于虚拟机集群弹性配置、多策略协同、时间约束策略仿真优选等技术的组合调度机制,实现了中长期并行负载在云数据中心按需获取和按量计费模式下的成本效益感知调度;其次,通过研究基于工作流结构特征的截止期划分、截止期约束违背纠正、基于虚拟机类型升级和降级的整体优化等技术,实现了截止期约束下大规模科学工作流的可靠调度和优化调度;第三,研究了工作流结构剖分和基于工作流执行阶段划分的竞价策略,实现了引入竞价型虚拟机情况下的科学工作流的容错调度和优化调度;最后,研究了基于WordNet快速索引列表的资源发现方法和基于本体语义的FAIR数据服务方法,通过计算资源的快速发现和数据资源的高效访问,为提高大规模科学工作流执行效率提供支撑。通过本项目的开展,课题组在国内外高水平学术期刊和会议上发表了研究成果,为中长期并行负载和大规模科学工作流在云数据中心环境下实现成本效益感知的容错可靠执行打下了基础,为科学家利用云计算新模式高效开展科学实验做出积极贡献。
{{i.achievement_title}}
数据更新时间:2023-05-31
面向云工作流安全的任务调度方法
环形绕组无刷直流电机负载换向的解析模型
基于5G毫米波通信的高速公路车联网任务卸载算法研究
基于体素化图卷积网络的三维点云目标检测方法
三维点云预采样的曲面自适应布点策略及应用
云数据中心并行计算模型与作业调度研究
基于可靠性、性能与能耗的云数据中心三维SLA建模与面向多目标优化的资源调度算法研究
云数据中心基于应用共存特性的混合调度研究
面向云数据中心应用感知的参与式资源调度技术研究