To address the low efficiency issues of the resource provisioning and task scheduling when executing scientific workflows on IaaS clouds, the research on optimizing scheduling algorithms with multi-objectives will be conducted especially for large-scale, computational-intensive, data-intensive scientific workflows, and workflow assembles. Specifically, first, list-based heuristics and deterministic guided searching technologies will be studied and used to obtain Pareto frontier for scientific workflows of which the scale could be more than 10^3. Second, techniques on concurrent launching of multiple workflows, admission control, and workflow task backfilling will be designed to achieve efficient scheduling algorithms satisfying deadline and cost constraints towards scientific workflow assembles. Third, multi-level hypergraph partitioning technologies will be studied to implement Pareto Optimal algorithms towards data-intensive scientific workflows running across many IaaS clouds. All the aforementioned algorithms will be verified and validated using scientific workflow traces from Pegasus website and the NUDT_NWPSCIFlow global middle numerical weather predictions workflow, which is developed by ourselves and running on NUDT (National University of Defense Technology) Galaxy cloud and KylinCloud (Guangzhou Tianhe 2 cloud). If this project is successful, it will greatly help scientists improve their capabilities to conduct scientific workflow experiments by efficiently using IaaS cloud resources.
针对IaaS云环境下科学工作流高效执行面临的资源供给与任务调度效率不高等问题,开展面向大规模计算密集型科学工作流、大规模科学工作流集合以及大规模数据密集型科学工作流这三类典型科学应用的多目标优化调度算法的研究工作。一是研究利用列表策略和确定性导向搜索技术实现10^3以上级别科学工作流的帕累托前沿高效快速算法;二是研究利用多工作流并发启动、工作流准入控制和任务回填技术,实现基于可伸缩异构虚拟机集群的满足截止期和费用约束的科学工作流集合高效调度算法;三是利用多层超图剖分技术实现多云环境下基于分割子工作流的数据密集型科学工作流的帕累托前沿高效算法。依托国防科大银河虚拟云环境和广州超算中心天河二号云环境,采用科学工作流标准案例和团队自主研制的全球中期数值天气预报科学工作流系统对上述算法进行全面测试验证。本项目若研究成功,将为提高科学家利用IaaS云环境进行大规模科学工作流实验的能力做出积极贡献。
针对IaaS云环境下科学工作流高效执行面临的资源供给与任务调度效率不高等问题,开展面向大规模计算密集型科学工作流、大规模科学工作流集合以及大规模数据密集型科学工作流这三类典型科学应用的多目标优化调度算法的研究工作。特别地,本项目首先创新性地提出了基于时间压缩的虚拟机集群配置、基于关键路径截取的任务调度、基于多目标优化的多核CPU感知虚拟机放置、基于自适应人工蜂群算法的参数估计、基于生物地理学优化算法的DAG调度等算法,实现了基于启发式策略与元启发式策略相结合的大规模科学工作流时间-费用双目标占优的帕累托前沿高效计算;其次,通过突破基于时间关联的多科学工作流调度、截止期约束的工作流调度费用优化、基于竞价型实例的调度费用再优化、多工作流并发启动、准入控制和任务回填等关键技术,实现了满足截止期和费用约束的科学工作流集合吞吐量最大化调度;最后,提出了基于加权K均值和基于K割的多层图剖分大规模数据密集型科学工作流调度算法,实现了多云环境下基于分割子工作流的数据密集型科学工作流的高效执行。项目在国内外高水平学术期刊和会议上发表了一系列研究成果,建立了IaaS云环境下大规模科学工作流高效执行的理论与机制,使IaaS云环境下大规模科学工作流的执行性能得到显著提升,对于提高科学计算业务流程运行效率和提升IaaS云数据中心资源利用率具有重要的现实意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
中国参与全球价值链的环境效应分析
面向云工作流安全的任务调度方法
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
湖北某地新生儿神经管畸形的病例对照研究
云环境中支持混合并行模式的科学工作流的执行优化
云环境下面向大数据并行计算的工作流执行优化研究
混合云计算环境下多工作流的混合调度及费用优化
云环境下基于Memetic框架的水质传感器大规模优化布置方法研究