大规模分布式系统中服务失效的自动诊断方法研究

基本信息

批准号：61303053

项目类别：青年科学基金项目

资助金额：23.00

负责人：李丰

学科分类：

依托单位：中国科学院计算技术研究所

批准年份：2013

结题年份：2016

起止时间：2014-01-01 - 2016-12-31

项目状态：已结题

项目参与者：张兆庆,衷璐洁,陈亚男,曹知己,康炎丽,陈聪明,王蕾,温迪哲

关键词：

故障定位大规模分布式系统失效检测端到端跟踪

结项摘要

With the development of large-scale distributed system, especially with the rise of cloud computing, failures appear more frequently. Effort spent on failure diagnosis has also been increased since both the types and the root causes of failures become more diverse and complex. This proposal presents a study on automatic service failure diagnosis in large-scale distributed systems. A service failure refers to the type of failures which makes the systems perform poorly or run far slower than expection. There are two main research topics in the proposal: (1) automtic failure model extraction based on adaptive tracing, and (2) automatic fault localization based on derivation and verification. The goal of our first research topic is to improve both the accuracy and the scalability of failure detection while keeping the cost of tracing low. To achieve this goal, we plan to present a study on adaptive end-to-end tracing which adjusts both the sampling rates and the granularities of online tracing. In this study, failure models will first be extracted and refined on the basis of the tracing results,and then be used to guide the tracing strategies in turn. The goal of our second research topic is to improve both the accuracy and the efficiency of fault localization (i.e. locating the root causes of service failures). Our research plan of this topic is to design a new representation for failure-related behaviors, along with an algorithm which quantizes a failure contribution rate for each of the behaviors. After that, we will present a study on automatic fault localization by performing following steps iteratively: deriving root cause candidates based on the failure contribution rates and verifying the candidates with an effective divide-and-conquer strategy. The goal of this proposal is to provide new approaches and key techniques for service failure diagnosis in large-scale distributed systems after they have been deployed. These approaches and techniques will help improve both the efficiency and the effectiveness of failure diagnosis and, consequently, raise the QoS of large-scale distributed systems.

随着大规模分布式系统的发展，尤其是云计算的兴起，失效的表现形式、原因以及传播形式均呈现出新的特点，进一步加重了识别失效和定位失效原因的负担。本申请针对大规模分布式系统中涉及服务质量下降的失效，研究自动诊断方法。研究内容包括：（1）提出采样率、跟踪粒度均可双向调节的自适应跟踪策略，并基于该策略研究失效模式的自动提取与持续精化技术，支持对服务失效的自动识别；对该技术的研究以控制跟踪开销、提高失效识别精度和方法的可伸缩性为目标；（2）研究失效原因的自动定位技术：首先，研究失效相关的因素以及量化评估各因素对失效贡献的模型；然后，根据对失效贡献率的计算结果，研究基于推导、分治验证交替迭代的失效原因自动定位方法；对该技术的研究以自动且准确地定位失效原因为目标。上述研究将为大规模分布式系统部署后服务失效的诊断提供方法与关键技术，及时、准确地识别服务失效的表现及失效原因，提高系统的可靠性与服务质量。

项目摘要

大规模分布式系统的发展进一步加重了识别失效和定位失效原因的负担。本项目针对大规模分布式系统中涉及服务质量下降的失效，以对分布式系统运行日志的查询与分析为切入点，以精确的动静态程序分析为辅助，研究失效识别和对失效原因的自动定位。项目研究工作在日志分析技术、程序分析技术以及缺陷定位技术这三个方面展开，分别提出了若干关键技术和方法，取得了以下5方面研究成果：（1）针对失效原因推导与验证技术在可扩展性方面的不足，改进基于最小调试边界的缺陷定位技术，并提出一种稀疏的符号化搜索算法；（2）针对在日志分析以及对分析结果持续精化的过程中存在的冗余计算问题，提出一种以语义规则为指导的周期性查询增量优化技术；（3）针对路径敏感分析技术可扩展性不足的问题，提出了一种场景敏感、目标制导的高效分析方法，缩小失效原因的备选范围；（4）利用日志分析所涉及的查询之间存在的相似性和依赖性，提出一种基于查询间流分析的查询计划批量优化技术；并提出一种查询计划转化的优化技术；（5）提出一种基于关节点的两层图划分优化方法；并利用图的关节点特性，提出一种冗余计算消除的介度中心算法，提高识别网络中重要节点的效率。在项目的资助下，共发表论文12篇，其中包括领域国际著名会议CC’17、PPOPP’16、ICS’15等，国际知名期刊TPDS、TC、TSE等，国内核心期刊计算机学报、软件学报等。申请专利4项，并搭建了辅助诊断失效的原型。通过本项目的研究，部分解决了失效识别和失效原因定位的代价和自动化问题。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.16796/j.cnki.1000-3770.2022.03.003

发表时间：2022

DOI：10.12202/j.0476-0301.2022178

发表时间：2022

DOI：

发表时间：2016

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：DOI: 10.11821/dlxb201611003

发表时间：2016

李丰的其他基金

批准号：31571457

批准年份：2015

资助金额：65.00

项目类别：面上项目

批准号：11501587

批准年份：2015

资助金额：18.00

项目类别：青年科学基金项目

批准号：79200010

批准年份：1992

资助金额：4.50

项目类别：青年科学基金项目

批准号：31371424

批准年份：2013

资助金额：90.00

项目类别：面上项目

批准号：30771128

批准年份：2007

资助金额：30.00

项目类别：面上项目

批准号：31171360

批准年份：2011

资助金额：65.00

项目类别：面上项目

批准号：79070035

批准年份：1990

资助金额：2.00

项目类别：面上项目

批准号：30570966

批准年份：2005

资助金额：30.00

项目类别：面上项目

批准号：90813038

批准年份：2008

资助金额：55.00

项目类别：重大研究计划

批准号：30370736

批准年份：2003

资助金额：20.00

项目类别：面上项目

批准号：31771553

批准年份：2017

资助金额：60.00

项目类别：面上项目

相似国自然基金

针对多线程程序失效的用户级半自动诊断方法研究

批准号：61100011

批准年份：2011

负责人：霍玮

学科分类：F0203

资助金额：24.00

项目类别：青年科学基金项目

大规模模糊系统的自动生成方法研究

批准号：69975004

批准年份：1999

负责人：何永保

学科分类：F0601

资助金额：15.00

项目类别：面上项目

面向大规模服务系统的在线服务质量预测方法研究

批准号：61472338

批准年份：2014

负责人：郑子彬

学科分类：F0203

资助金额：80.00

项目类别：面上项目

大规模计算平台的失效分析方法研究

批准号：60703020

批准年份：2007

负责人：詹剑锋

学科分类：F0204

资助金额：20.00

项目类别：青年科学基金项目

大规模分布式系统中服务失效的自动诊断方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

EBPR工艺运行效果的主要影响因素及研究现状

复杂系统科学研究进展

基于MCPF算法的列车组合定位应用研究

二维FM系统的同时故障检测与控制

末次盛冰期以来中国湖泊记录对环流系统及气候类型的响应

李丰的其他基金

PAK5磷酸化天冬酰胺氨肽酶对乳腺癌细胞迁移及癌干细胞样表型的影响

贝叶斯柔性密度方法及其在高维金融数据中的应用

宏观技术经济分析的数理理论研究和实证分析

PAK4在ER-α阳性乳腺癌转移中的作用及机制

PAK4与PKN1相互作用在胃癌细胞迁移中的作用及其机制研究

PAK4与SCG10相互作用在胃癌细胞侵袭转移中的作用及其机制

我国经济景气指数研究及其应用可能性实验

乳腺癌细胞信号蛋白ZCW生物学特性的研究

基于化学小分子探针的肿瘤细胞p21活化激酶信号转导机制研究

信号转导分子PAK4相互作用蛋白质的筛选

PAK6介导的ANT2磷酸化与乙酰化相互调节在前列腺癌代谢重编程中的作用及机制

相似国自然基金