基于纠删码的大规模存储集群重构优化技术

基本信息
批准号:61300046
项目类别:青年科学基金项目
资助金额:26.00
负责人:万胜刚
学科分类:
依托单位:华中科技大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:林安,李诗逸,周旭,陈迪,涂剑洪,宋驰
关键词:
重构可靠性存储集群纠删码
结项摘要

As the infrastructure of cloud storage and big data storage systems, storage clusters are widely deployed in data centers. Typically, a storage cluster is composed of thousands of independent nodes and contains a lots of commodity software and hardware components. In such an environment, failures are not rare. Those failures result in service interruption and data loss which may seize up the running of the whole society. Therefore, redundant schemes should be introduced to improve the availability and reliability of storage systems thus reduce the risk brought by failures. As a data redundant technology, erasure codes promise high availability and reliability at low cost. However, an erasure-coded storage cluster suffers from potential problems of performance, availability and reliability, which are incurred by the traditional centralized reconstruction approach. To address these problems, we propose a series of approaches to speed up the reconstruction process by leveraging the abundant process, transmission and storage resources in the storage clusters. Through these approaches, the performance, availability, and reliability of the systems can be improved. As a result, the redundant cost of cloud storage and big data storage can be reduced by deploying those practical erasure-coded storage clusters.

大规模存储集群是当前云存储与大数据存储系统的基础平台,所包含的成千上万软件与硬件部件随时都可能失效,从而导致服务中断甚至数据丢失等严重问题。传统基于多副本冗余技术在数据量增大时,其运营成本急剧上升,因此使用存储效率更高的纠删码技术成为必然,但传统纠删码具有较差的重构性能。针对这一问题,观察到集群内冗余存储单元、存储节点和网络上下链路使用情况和失效模式具有较强的非平衡性,因此本课题研究通过调度存储集群内的大量处理、传输与存储资源,通过优先恢复低可靠性条带的数据,适当延迟正常用户请求以加快降级读请求,及利用纠删码编码规则提高条带内重构的并行性,设计加快纠删码存储集群的数据重构过程的方法和机制,从而提高系统整体性能、可用性及可靠性。在保持可靠性的同时,有效降低云存储与大数据存储系统的冗余成本。

项目摘要

作为大规模互联网服务、大数据处理以及云存储的基础,大规模存储集群被广泛部署数据中心中。存储集群通常由大量的基于商用软硬件构建的的独立的存储节点构成,因此,节点失效难以避免。为了缓解节点失效带来的数据可靠性与可用性的降低,数据冗余技术被大量使用。随着数据集规模的不断扩大,数据冗余带来的额外开销已经不容忽视,因而具有更低存储开销的基于纠删码的数据冗余技术被提出以取代高存储开销的基于副本技术的数据冗余技术。然而,相对于副本技术,纠删码技术存在着数据恢复流量高引发的数据恢复时间长、降级读性能低等一系列问题,为了缓解上述问题,特提出并开展本研究。..本研究从以下4个方面展开:(1)失效的建模与仿真研究,主要研究各种节点失效事件及规律及其对存储集群的各方面影响,建立了2个相关数学模型并开发了1个开源仿真工具;(2)新型纠删码研究,主要研究适合存储集群特性的新型纠删码,例如,设计了一类具有高容错能力(高达12)及低修复代价的非最大可分距离码;(3)重构/可靠性优化研究,主要研究利用调度系统级资源,达到加速数据恢复、提升系统可靠性/可靠性及性能的方法,例如,设计了一种通过提前多错条带重构提高副本集群(纠删码集群同样有效)数据可靠性优化方法,即使是在三副本集群中,其也能够将可靠性提高到4倍左右,在纠删码集群中,效果则更加显著;(4)设备级可靠性研究,主要研究存储集群中常用存储设备的可靠性问题,例如,设计了一种基于混合介质(SLC及MLC flash)与分层数据冗余(芯片内与芯片间)的SSD结构,能够以不到10%的成本代价将延长存储集群中常用的MLC SSD设备寿命提升23%至178%。..通过本研究的开展,取得了一下研究成果:在相关领域的知名国际会议上发表学术论文5篇,其中CCF-B类会议4篇,通过项目培养或协助培养了3名博士研究生与11名硕士研究生,申请及获批了4项专利。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

倒装SRAM 型FPGA 单粒子效应防护设计验证

倒装SRAM 型FPGA 单粒子效应防护设计验证

DOI:
发表时间:2016
2

基于概率-区间混合模型的汽车乘员约束系统可靠性优化设计

基于概率-区间混合模型的汽车乘员约束系统可靠性优化设计

DOI:10.13465/j.cnki.jvs.2021.20.030
发表时间:2021
3

基于极化码的无协商密钥物理层安全传输方案

基于极化码的无协商密钥物理层安全传输方案

DOI:10.11999/jeit190948
发表时间:2020
4

考虑故障处理过程信息系统连通性和准确性的配电网可靠性评估

考虑故障处理过程信息系统连通性和准确性的配电网可靠性评估

DOI:10.13335/j.1000-3673.pst.2018.1478
发表时间:2020
5

带宽和时延受限的流媒体服务器集群负载均衡机制

带宽和时延受限的流媒体服务器集群负载均衡机制

DOI:10.11896/jsjkx.200400131
发表时间:2021

万胜刚的其他基金

相似国自然基金

1

云存储中的协同纠删码技术

批准号:61572181
批准年份:2015
负责人:胡玉鹏
学科分类:F0207
资助金额:67.00
项目类别:面上项目
2

面向纠删码云存储系统的数据快速重构技术研究

批准号:61702013
批准年份:2017
负责人:傅颖勋
学科分类:F0204
资助金额:24.00
项目类别:青年科学基金项目
3

基于纠删码的云存储数据扩展的理论与技术研究

批准号:61872414
批准年份:2018
负责人:胡燏翀
学科分类:F0204
资助金额:63.00
项目类别:面上项目
4

基于纠删码的异构分布式内存键值存储系统构建及性能优化

批准号:61872130
批准年份:2018
负责人:胡玉鹏
学科分类:F0207
资助金额:64.00
项目类别:面上项目