A growing number of distributed applications are moving (or have been moved) to cloud environments. The correctness and the availabilities of cloud applications in their migrations, configurations and executions are significantly affected by many factors, especially including the large system scale, the complicated deployment environment, the dynamically changed load and the code quality..Model-based migration and configuration can enhance the correctness, failure recovery ensures the high-availability, and crash replay improves the efficiency of diagnosing and fixing cloud applications off-line. In the existing studies, configuration discovery has to depend on some baselines and the huge number of domain knowledge; application migration is highly platform-specific; the trade-off between cost and effectiveness of the failure recovery is absent; the efficiency and the precision of generating testing data for crash replay are expected to be improved..With the goal of improving availability and correctness of cloud applications, this project is devoted to studying: 1) model-based migration and configuration discovery, 2) virtual environment based failure recovery, and 3) test data generation towards crash replay. Furthermore, this project will implement a prototype system to validate the proposed theories, methods and technologies. The project gives the theoretical basis and technical support for realizing cloud applications with high reliability and availability.
越来越多的分布式系统已经或正在向云计算平台部署和迁移。巨大的系统规模、复杂的部署环境、负载的动态变化和软件代码质量严重影响云应用迁移、配置、运行等阶段的正确性和可用性。已有很多研究工作从应用迁移配置、失效恢复以及故障发现与修复等多个方面入手,致力于提高应用的正确性、可用性和可靠性。但是,现有工作仍存在不足之处:配置发现方法必须依赖大量基准数据和领域知识;云应用迁移技术与平台高度相关,难以屏蔽底层细节;失效恢复方法缺少对方法开销和有效性的权衡与最优选择机制;故障重放相关测试数据的生成效率和准确性有待提高。.本项目以提高云应用的可用性和正确性为目标,覆盖运行前、运行时、故障时,重点研究:基于模型的云应用迁移与配置关联发现技术、面向虚拟化环境的云应用失效恢复技术和面向云应用故障重放的测试用例生成方法,并通过原型系统验证理论、方法和技术的有效性,为实现高可靠、高可用的云应用提供理论依据和技术支撑。
越来越多的分布式系统已经或正在向云计算平台部署和迁移。巨大的系统规模、复杂的部署环境、负载的动态变化和软件代码质量严重影响云应用迁移、配置、运行等阶段的正确性和可用性。为了提高云应用部署、迁移过程中的正确性、可用性和可靠性,课题主要针对云应用的迁移过程优化、云应用部署时的性能优化、分布式流处理系统的失效恢复、微服务的故障诊断等方面进行研究。主要的研究内容包括:混合存储环境下的云应用优化迁移、云应用负载感知的固态盘缓存分配、分布式流处理系统的失效恢复、微服务的故障诊断。.本课题的主要研究成果包括:1) 提出一种云应用负载感知的固态盘缓存分配方法并形成工具原型,在事务型(Web)和分析型(Hadoop)这两类典型的云应用场景下进行了验证;2) 提出了一种虚拟机优化放置方法,考虑了固态盘的处理能力限制以提升云应用的性能,并在Hadoop和ZooKeeper场景下进行了验证;3) 针对分布式系统的作业调度问题,提出了一种基于最小费用最大流的大规模资源调度方法,将资源调度问题转换成最小费用最大流图的构造和求解问题,并使用Google公开数据集进行验证;4) 提出了一种基于分布式缓存的流处理失效恢复方法,借助分布式缓存对状态、记录等信息的快速读取,以减少“exactly-once”语义保障的恢复延迟,并与Flink现有的失效恢复算法进行对比验证 ;5) 提出了一种基于执行轨迹监测的微服务故障诊断方法,基于树编辑距离和宽度优先搜索实现执行轨迹异常评估和问题定位;6) 提出了一种基于版本历史的配置代码错误模式发现方法,提取代码变动特征并使用聚类方法发现常见错误模式。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形维数和支持向量机的串联电弧故障诊断方法
基于FTA-BN模型的页岩气井口装置失效概率分析
瞬态波位移场计算方法在相控阵声场模拟中的实验验证
平行图像:图像生成的一个新型理论框架
资产配置在商业银行私人银行业务中的作用
面向云计算环境的应用迁移策略及资源优化配置关键技术研究
云计算环境下基于运行时模型的管理复用关键技术研究
异构网络移动云计算资源配置与计算迁移技术研究
变流器在线预诊断与健康管理关键技术研究