面向大数据分析系统的配置参数在线调优方法研究

基本信息
批准号:61902440
项目类别:青年科学基金项目
资助金额:26.00
负责人:窦晖
学科分类:
依托单位:安徽大学
批准年份:2019
结题年份:2022
起止时间:2020-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:
关键词:
能耗优化分布式计算系统大数据分析系统性能优化配置调优
结项摘要

Performance and power consumption optimization are critical to the sustainable operation of big data analysis. In order to be adapted to kinds of scenarios, applications in big data analytics usually expose a large number of configuration parameters. This project intends to study the configuration parameters online tuning methods for big data analytics, in order to optimize the performance and power consumption of the applications. The main challenges to solve this problem are as follows: Performance optimization needs to consider the full-stack performance configuration parameters; User experience optimization needs to collaborative tune the performance configuration parameters of all the related applications; Power consumption cost optimization needs to consider the performance interference between colocated tasks; The actual production environment needs to address the multi-objective configuration parameters tuning problem. To address above challenges, this project studies: (1) A full-stack performance configuration parameters tuning method based on high-dimensional Bayesian optimization; (2) A collaborative tuning method of multi-application performance configuration parameters for user experience optimization; (3) A colocated task scheduling and power consumption configuration parameters tuning method for power consumption cost optimization; (4) A configuration parameters tuning method based on multi-objective high-dimensional Bayesian optimization; (5) Verification methods based on local clusters and the Tianhe-2 supercomputer system. Through the above research, this project is able to improve the performance of applications in big data analytics, and reduce the power consumption as well as the cost, which is of great significance to the sustainable operation of big data analytics.

性能和能耗优化对大数据分析系统的可持续运营至关重要。为了提高通用性,大数据分析系统中的应用软件通常对外提供了大量的配置参数。本项目拟研究面向大数据分析系统的配置参数在线调优方法,以优化应用软件的性能和能耗。解决该问题主要面临以下挑战:性能优化需要考虑全栈化性能配置参数;用户体验优化需要进行多应用的性能配置参数协同调优;能耗成本优化需要考虑混部任务的性能干扰;实际生产环境需要进行多目标配置参数调优。针对以上挑战,本项目研究:(1)基于高维贝叶斯优化的全栈化性能配置参数调优方法;(2)面向用户体验的多应用性能配置参数协同调优方法;(3)面向能耗成本的混部任务调度和能耗配置参数调优方法;(4)基于多目标高维贝叶斯优化的配置参数调优方法;(5)基于本地集群和天河平台的验证方法。通过以上研究内容,本项目能够提高大数据分析系统中应用软件的性能,降低能耗及成本,对大数据分析系统的可持续运营具有重要意义。

项目摘要

为了提高通用性,大数据分析系统中的应用软件通常对外提供了大量的配置参数,通过调节配置参数的取值可以优化软件性能和能耗。然而,传统的配置参数调优方法主要面临以下挑战:没有考虑全栈化性能配置参数;没有进行多应用的性能配置参数协同调优;不支持多目标配置参数调优。针对以上挑战,本项目在国家自然科学基金委的支持下,围绕面向大数据分析系统的配置参数在线调优问题,从高维、多目标、混部任务调度与参数配置协同、低代价等几个角度进行了深入的研究。主要研究内容包括:基于高维贝叶斯优化的全栈化性能配置参数调优方法;面向用户体验的多应用性能配置参数协同调优方法;面向能耗成本的混部任务调度和能耗配置参数调优方法;基于多目标高维贝叶斯优化的配置参数调优方法;基于本地集群和天河平台的验证方法;低代价的配置参数调优方法等6个方面的内容,从而达到提高软件性能、减少软件运行能耗和资源成本的目的。. 项目产生了一系列具有创新性的研究成果,在高维配置参数调优方面,研究基于随机嵌入的高维贝叶斯优化方法,实现了全栈化性能配置参数调优;研究基于dropout策略的高维贝叶斯优化方法,实现了多软件的性能配置参数协同调优。在多目标配置参数调优方面,研究了基于自适应不确定性度量指标的多目标贝叶斯优化算法,实现了高维多目标配置参数调优。在混部任务调度与参数配置协同方面,面向批处理任务,实现了基于机器学习模型的性能-能耗双目标配置参数调优方法;面向流式处理任务,实现了基于dropout机制和自适应伪点机制的资源配置和性能参数协同优化方法。在低代价配置参数调优方面,实现了基于深度强化学习的低代价在线配置参数调优方法。在以上研究内容基础上实现了多个原型系统并验证了系统在性能、能耗和资源成本优化方面有效性。. 项目共发表了4篇学术论文,其中CCF B类会议1篇,CCF B类期刊1篇,SCI 2篇;申请专利2项;开源配置参数自动化调优系统1套。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
4

特斯拉涡轮机运行性能研究综述

特斯拉涡轮机运行性能研究综述

DOI:10.16507/j.issn.1006-6055.2021.09.006
发表时间:2021
5

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019

窦晖的其他基金

相似国自然基金

1

大数据分析引擎“系统配置”自动调优关键技术研究

批准号:61802384
批准年份:2018
负责人:贝振东
学科分类:F0204
资助金额:27.00
项目类别:青年科学基金项目
2

面向大数据分析系统的任务调度优化方法研究

批准号:61672215
批准年份:2016
负责人:李智勇
学科分类:F06
资助金额:64.00
项目类别:面上项目
3

面向Scratch在线编程教育的大数据分析模型与关键技术研究

批准号:61877005
批准年份:2018
负责人:孙岩
学科分类:F0701
资助金额:45.00
项目类别:面上项目
4

面向管理决策大数据分析的理论与方法

批准号:92046021
批准年份:2020
负责人:陈松蹊
学科分类:G0105
资助金额:130.00
项目类别:重大研究计划