In IT departments of small to medium size enterprises, RAID storage systems are generally shared by multiple heterogeneous servers.The shared RAID always show a rapid decrease in IO performance, as the direct result of resource contention as well as frequent disk head movements caused by intermix of disk requests from different servers. Which goes against the aim of enterprise storage sharing. Based on online profiling of disk IO operations from multiple servers sharing the disk array, combined with data migration, we propose a new dynamic data relocation technique on shared RAID storages to optimize performance. A physical partition of the entire shared array is constructed as "cache area", providing one sub-RAID for each server sharing the storage. Each sub-RAID forms different RAID configuration to match the IO access pattern of its corresponding server. By analyzing profiling data, we determine optimal data relocation, the portion of hot data and partition of disks in the shared RAID to maximize large sequential block accesses on individual disks and at the same time maximize parallel accesses across disks in the array. Obviously, the "cache area" stores active data and works in a similar way as a second level storage cache with a capacity several orders of magnitude larger than a RAM cache. Besides, each sub-RAID works in a way of "private logic second level cache" for each server sharing the RAID. As a result, disk head movements caused by intermix of disk requests from different servers could be minimized. The shared RAID could achieve load balance among disks in the array, high speed disk accesses, and true storage sharing and consolidation.
当今数量庞大的中小型IT企业中RAID存储子系统往往被多个异构服务器共享,对存储资源的竞争,以及异构服务器的IO流互相干扰引起的RAID磁盘磁头频繁寻道,导致共享RAID性能降低,违背了企业存储共享的初衷。本项目提出基于对IO访问的在线分析,结合数据动态重排,实施优化的共享RAID数据排布方案来解决该问题:在共享RAID的物理存储空间划分一个缓存区,用于为每个服务器配置一个"子RAID";再通过在线的IO访问特征分析,基于对单个磁盘顺序访问的数据块最大化或对多个阵列磁盘并行访问的磁盘数目最大化原则,确定"子RAID"结构,并选择最佳数据集从大磁盘阵列动态重排到"子RAID",使各"子RAID"始终对相应服务器呈现"专有逻辑高速缓存"的功能,从而隔离异构服务器IO流互扰,提高存储系统IO吞吐率。课题研究成果能让共享RAID为异构服务器提供优化、均衡的存储服务,实现真正的企业RAID存储共享。
当今IT企业中的服务器往往是异构的,且应用的多样性也会导致IO流特征的差异,异构服务器和不同应用在共享分布式存储系统时对存储资源的竞争,以及IO流互相干扰可导致存储系统性能降低,违背了存储共享的初衷。虽然分布式文件系统(DFS,Distributed File System)的默认数据策略能为数据存储及集群计算功能提供支撑,并且具有安全性和节点选择简单等优点,但其框架并没有重视现实集群中几个重要特征:节点异构性、应用环境多样化、数据文件访问规律性、节点变动等特征。本项目基于对IO访问的在线分析,结合数据动态重排,实施优化的分布式存储系统数据排布方案来解决该问题:1)以应用为导向,将数据划分为计算型数据和存储型数据两类,并分别为不同数据类型提供不同的放置策略。优化的数据放置策略在为计算型数据选择存储节点时,以节点数据访问负载与节点性能相适应为原则,旨在增加数据计算的“本地化”,即计算节点从本地获得所需计算数据,减少网络传输,提高集群计算效率。针对存储型数据响应用户读写访问为其主要存储目的的特点,优化的数据放置策略以负载均衡为目标,选择综合负载较小的节点作为数据的存储节点。2)分布式存储系统中默认数据副本的写入采用管道方式,第一个存储节点写入失败将导致数据副本在其余节点均存储失败,为了避免这种情况,优化的数据策略在为数据选择了最优的存储节点之后,提出基于数据节点可靠性的写入次序优化方案,最大化副本写入的成功率。3)对零访问数据进行分布调整以平衡节点存储空间。. 本项目搭建了基于Hadoop的真实集群环境对本项目提出的优化数据策略进行对比和验证,结果表明与HDFS默认数据副本策略相比,优化的计算型数据放置策略能够有效提高MapReduce工作时的Map任务本地化比例,进而缩短MapReduce程序的完成时间,并在集群节点出现变动时具有更好的稳定性和恢复能力。优化的存储型数据放置策略能在一定程度上避开繁忙节点,并有目的性地引导副本向性能较优节点进行存储,使集群负载更加均衡,最终缩短存储型数据的写入时间,提高存储效率。. 课题研究成果能让分布式存储系统为异构服务器以及不同类型的应用提供优化、均衡的存储服务,并适应系统对于节点变动,实现真正的多异构服务器、多应用存储共享。
{{i.achievement_title}}
数据更新时间:2023-05-31
农超对接模式中利益分配问题研究
面向云工作流安全的任务调度方法
倒装SRAM 型FPGA 单粒子效应防护设计验证
基于BP神经网络的滑坡监测多源异构数据融合算法研究
兰州大学电镜中心-大型仪器共享平台的建设及核心竞争力
阵列排布柱体群绕流与涡激振动互扰机理研究
服务器共享排队系统的分析及优化
感知异构车载网络中多维资源协同优化和高效数据共享
基于本体的地球科学异构数据共享框架研究