Deduplication based storage can eliminate data redundancy to significantly improve storage space efficiency,but there are critical challenges in its I/O performance and system scalability. These problems are research issues in network storage field. Our proposal studies the high efficient deduplication based storage techniques with application/storage codesign to balance the data reduction ratio and system throughput for the storage requirement of massive backup data management in data center. The research ideas and creativity of this program is to propose application aware data partition strategy, after the analysis on file format and data content of the massive complex application datasets; Then we study a high performance chunk index lookup scheme in deduplication process, by considering the combination of chunk index I/O pattern and hybrid storage characteristics; Finally, we provide a high scalable data routing method for cluster deduplication by exploiting data similarity with application file semantics. Through the above research, we expect to propose some key technologies to build high efficient network storage system with high storage utilization, high I/O performance and high scalability, satisfying the storage requirements of big data protection in important industries and sectors.
重复数据删除存储通过消除数据冗余极大提升存储空间利用率,但在存储I/O性能和系统扩展能力方面存在严峻挑战,是当前网络存储研究领域的热点和难点。本课题针对数据中心海量备份数据管理的存储需求,基于应用与存储协同设计研究可有效平衡数据缩减率和系统吞吐率的高效能重复数据删除存储技术。研究思路和创新点是在海量复杂应用数据文件格式和内容分析的基础上,提出应用感知的高效数据分块策略;在此基础上,结合块索引访问模式和混合存储特征,研究高性能的重复数据删除块索引查询机制;并通过应用文件语义比对优化数据相似性开发,研究高可扩展的集群重复数据删除数据路由方法。通过本项目的研究,冀突破数据中心构建具有高存储利用率、高I/O性能和高可扩展特点的高效能重复数据删除存储系统关键技术,以满足重要行业和部门进行大数据保护的存储需求。
随着大数据时代的到来,数据中心的存储系统,尤其是在具有数据保护能力的备份和容灾层,管理的日趋复杂海量数据集中有大量的重复数据。重复数据删除技术能够抑制海量复杂数据的过快增长,提升数据中心的IT资源利用率,但传统的重复数据删除技术在优化大数据存储时很难有效平衡数据缩减率和系统扩展能力。我们提出了基于应用与存储协同分层重删设计思想的高效能重复删除存储技术,我们同时开发数据相似性和局部性来进行应用感知的重复数据删除优化,并从应用感知数据划分方法、多级块索引查询优化、应用感知的分布重删数据路由技术等方面进行应用与存储协同设计的一系列亟待解决的关键问题。不论是通过I/O标签的显式应用感知技术,还是通过增加中间层进行数据流局部性感知的隐式应用感知技术的重复数据删除优化处理,都能够在获得高开销重删机制的高数据缩减率的同时,获得接近低开销重删机制的系统可扩展能力。这种基于应用感知的高效能重复数据删除存储技术将为构建绿色数据中心提供关键技术支撑。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
跨社交网络用户对齐技术综述
硬件木马:关键问题研究进展及新动向
城市轨道交通车站火灾情况下客流疏散能力评价
基于FTA-BN模型的页岩气井口装置失效概率分析
面向大数据备份的重复数据删除关键技术研究
重复数据删除存储系统的可靠性关键技术研究
云存储系统中重复数据删除技术研究
云存储中重复数据删除的数据布局策略研究