基于深度强化学习的集群资源调度算法研究

基本信息
批准号:61872397
项目类别:面上项目
资助金额:66.00
负责人:肖臻
学科分类:
依托单位:北京大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:杨仝,马超,任仕儒,毛航宇,柯伟辰,倪焱,郑培凯,潘丽晨,张正超
关键词:
计算资源云平台分布式计算分布式系统云计算环境
结项摘要

Cluster resource scheduling is a core technology in distributed systems, and is also a current hot spot in system research. Most existing resource scheduling algorithms are designed by hand using various heuristics and then revised in the field through trial-and-error. However, such a development model is time-consuming and error-prone, and often has to be repeated whenever some characteristics of the system change..We propose to use Deep Reinforcement Learning (DRL) to solve the resource scheduling problem in large clusters. Our model extracts system state information through Deep Neural Networks (DNN) and captures time-varying task load using Long Short Term Memory (LSTM). We propose to train our model using the Asynchronous Advantage Actor-Critic (A3C) framework with a combination of offline and online training. This proposed research can shed new lights to researchers in large scale distributed systems.

集群资源调度是分布式系统里的核心技术,也是当前系统领域的研究热点。目前的资源调度算法主要靠研究人员手工设计启发式算法,然后在实际的系统中迭代测试。然而,这样的开发模式费时费力,并且由于调度问题的复杂性,人工设计的启发式算法不一定能够获得很好的效果。. 本基金课题将探索如何使用深度强化学习技术解决集群资源调度问题。我们提出的模型使用深度神经元网络提取集群的状态信息;用LSTM捕获任务负载的时序变化;用Asynchronous Advantage Actor-Critic框架产生调度动作并接受系统反馈,模型通过不断地自我学习最终得到最优的调度算法。本课题的研究成果能够有效地解决人工设计启发式算法的种种缺点,并且能够为系统研究人员提供一种解决问题的新方法。

项目摘要

强化学习在众多需要处理序列决策问题的领域得到了广泛的应用。计算机集群资源调度是一个典型的序列决策问题,需要在每个时刻根据集群当前的状态和任务的资源需求,从待调度的候选任务中选择合适的任务部署到合适的机器上运行,或者将合适规模的计算资源分配给指定任务。集群调度目前主要是由经验丰富的领域专家设计启发式算法来完成,往往需要根据集群资源的具体情况和任务需求特征手动调优,这使得调度效率低,算法可扩展性差。.本项目分别针对批处理任务和流处理任务开发了利用深度强化学习技术来自动学习出适合计算机集群任务负载的调度策略的方法。针对批处理任务的资源调度算法通过资源快照来刻画集群资源未来使用情况和任务的未来资源需求,能够支持细粒度的资源分配,以端到端的方式实现了对任务偏好设置的支持。本项目设计了一种基于卷积神经网络、残差支持、并联支路的特征提取网络来有效地提取未来一段时间内集群资源分配和任务资源需求的深层次特征。针对流处理任务的资源调度算法通过时空图的方式对流任务的拓扑依赖关系和动态负载进行刻画。本项目进一步设计了一种基于神经网络的变分子图采样器,通过采样子图来加快模型推理速度,并设计了基于互信息最大化的目标函数,可以和子图采样器进行协同优化和更新。. 实验结果表明,针对批处理任务的资源调度算法能够很好地支持任务偏好和奖励方案的设置,有效地提高集群的吞吐率,减少任务等待时间,在多项重要指标上都显著优于传统调度方法。针对流处理任务的资源调度算法可以通过采样子图来加快模型推理速度,并在延迟和资源利用率指标上达到更好的效果。本项目的研究成果申请了两项专利和一项软件著作权,在国内外著名会议和期刊上发表了多篇论文。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

黄河流域水资源利用时空演变特征及驱动要素

黄河流域水资源利用时空演变特征及驱动要素

DOI:10.18402/resci.2020.12.01
发表时间:2020
4

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
5

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019

肖臻的其他基金

批准号:61170056
批准年份:2011
资助金额:55.00
项目类别:面上项目
批准号:81674024
批准年份:2016
资助金额:55.00
项目类别:面上项目
批准号:61572044
批准年份:2015
资助金额:64.00
项目类别:面上项目

相似国自然基金

1

HTC集群与HPC集群负载融合的二阶作业调度算法和资源管理研究

批准号:11805225
批准年份:2018
负责人:杜然
学科分类:A2806
资助金额:26.00
项目类别:青年科学基金项目
2

基于资源可用度的综合自动化编组站集群调度耦合优化模型与算法

批准号:61203175
批准年份:2012
负责人:薛锋
学科分类:F0302
资助金额:23.00
项目类别:青年科学基金项目
3

基于深度学习的推荐算法研究

批准号:61773361
批准年份:2017
负责人:庄福振
学科分类:F0603
资助金额:64.00
项目类别:面上项目
4

医疗长周期连续决策模型与深度强化学习算法研究

批准号:71901050
批准年份:2019
负责人:陆炜
学科分类:G0112
资助金额:19.00
项目类别:青年科学基金项目