In cloud systems, the diversity and transmissibility of uncertainty behaviors bring great challenge to the performance predictability of cloud services. The problem becomes particularly severe for complex applications consisting of a large number of interdependent components or micro-services, due to their disordered computing, inharmonious transmission, uncoordinated components and bad runtime remedial actions. Considering the multi-stage, multi-path characteristics of complex applications, we adopt an intelligent multi-resource orchestration and reconfiguration method to improve the predictability of their end-to-end performance. Our proposal supports interference-aware computation resource allocation through a micro-benchmark and clustering-based interference prediction method, and supports harmonious network flow transmission by learning the evolution features of mix-flows. We further present a coordination mechanism to orchestrate the resource allocation and scheduling of components with respect to their space-time constraints. The runtime performance is then ensured through a reinforcement learning-based resource reconfiguration mechanism. It is expected that our proposal could significantly improve the performance predictability of cloud services, thereby promoting the development of cloud computing.
云计算环境下,不确定行为的来源复杂性和传播放大性为服务性能保障带来了巨大挑战。尤其面对由众多存在依赖关系的组件组成的复杂应用,现有云资源分配和调度方法存在计算失序、传输失调、组件失协、应对失策问题,使得应用端到端的性能难以保障。本项目选择从“智能感知”和“多资源协同”的角度,在干扰可控的计算、传输协调的通信、端到端的协同编排和运行时应对四个方面提出了一套完整的多资源分配方案,以期大幅度提高云应用的端到端性能确定性。其基本思想可概括为:智能干扰感知的计算和通信,多资源协同分配,自学习资源调整。即,提出基于机器学习聚类干扰预测方法提高干扰感知的场景覆盖能力,指导计算和通信资源分配;设计应用多阶段与系统多资源的时空置换协同分配方案,保障端到端规划性能;提出基于强化学习的方法解决运行时序列多步最优资源调整决策问题,保障运行时性能。研究成果有望大幅度提高现有云服务的性能确定性,推动云计算产业发展。
云计算环境下,不确定行为的来源复杂性和传播放大性为服务性能保障带来了巨大挑战。 尤其面对由众多存在依赖关系的组件组成的复杂应用,现有云资源分配和调度方法存在计算失序、传输失调、组件失协、应对失策问题,使得应用端到端的性能难以保障。本项目主要研究面向云服务的计算资源编排、通信资源编排和端到端编排技术。其中包括跨层干扰感知的拖后者消除技术,内存资源的冗余消除技术,跨域分布式流量工程技术,基于定向交叉探测的网络故障定位技术,时空局部干扰感知的云服务性能预测方法,计算与网络协同的云应用调度编排技术,以及云服务组件级资源动态调整策略和面向人工智能训练类云业务的效用最大化资源调整方法。这些技术的应用,提高了计算性能、网络资源的高效利用和快速通信、局部干扰下的云应用调度系统设计、云计算资源的效用产出和利用效率。
{{i.achievement_title}}
数据更新时间:2023-05-31
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
黄河流域水资源利用时空演变特征及驱动要素
特斯拉涡轮机运行性能研究综述
基于多模态信息特征融合的犯罪预测算法研究
栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究
面向服务智能协同的农业物联网动态自治与资源优化配置
面向跨云协同计算的资源融合与优化共享研究
面向机电产品拆卸的云服务资源建模及服务决策的研究
面向云医疗系统的资源协同优化配置与调度方法研究