面向大数据保护的高效能重复数据删除存储关键技术研究

基本信息
批准号:61402518
项目类别:青年科学基金项目
资助金额:26.00
负责人:付印金
学科分类:
依托单位:中国人民解放军陆军工程大学
批准年份:2014
结题年份:2017
起止时间:2015-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:胡谷雨,姜劲松,仇小锋,孙志丹,赵洪华,曾晓光,吴兆峰,刘青
关键词:
重复数据删除协同设计大数据保护网络存储
结项摘要

Deduplication based storage can eliminate data redundancy to significantly improve storage space efficiency,but there are critical challenges in its I/O performance and system scalability. These problems are research issues in network storage field. Our proposal studies the high efficient deduplication based storage techniques with application/storage codesign to balance the data reduction ratio and system throughput for the storage requirement of massive backup data management in data center. The research ideas and creativity of this program is to propose application aware data partition strategy, after the analysis on file format and data content of the massive complex application datasets; Then we study a high performance chunk index lookup scheme in deduplication process, by considering the combination of chunk index I/O pattern and hybrid storage characteristics; Finally, we provide a high scalable data routing method for cluster deduplication by exploiting data similarity with application file semantics. Through the above research, we expect to propose some key technologies to build high efficient network storage system with high storage utilization, high I/O performance and high scalability, satisfying the storage requirements of big data protection in important industries and sectors.

重复数据删除存储通过消除数据冗余极大提升存储空间利用率,但在存储I/O性能和系统扩展能力方面存在严峻挑战,是当前网络存储研究领域的热点和难点。本课题针对数据中心海量备份数据管理的存储需求,基于应用与存储协同设计研究可有效平衡数据缩减率和系统吞吐率的高效能重复数据删除存储技术。研究思路和创新点是在海量复杂应用数据文件格式和内容分析的基础上,提出应用感知的高效数据分块策略;在此基础上,结合块索引访问模式和混合存储特征,研究高性能的重复数据删除块索引查询机制;并通过应用文件语义比对优化数据相似性开发,研究高可扩展的集群重复数据删除数据路由方法。通过本项目的研究,冀突破数据中心构建具有高存储利用率、高I/O性能和高可扩展特点的高效能重复数据删除存储系统关键技术,以满足重要行业和部门进行大数据保护的存储需求。

项目摘要

随着大数据时代的到来,数据中心的存储系统,尤其是在具有数据保护能力的备份和容灾层,管理的日趋复杂海量数据集中有大量的重复数据。重复数据删除技术能够抑制海量复杂数据的过快增长,提升数据中心的IT资源利用率,但传统的重复数据删除技术在优化大数据存储时很难有效平衡数据缩减率和系统扩展能力。我们提出了基于应用与存储协同分层重删设计思想的高效能重复删除存储技术,我们同时开发数据相似性和局部性来进行应用感知的重复数据删除优化,并从应用感知数据划分方法、多级块索引查询优化、应用感知的分布重删数据路由技术等方面进行应用与存储协同设计的一系列亟待解决的关键问题。不论是通过I/O标签的显式应用感知技术,还是通过增加中间层进行数据流局部性感知的隐式应用感知技术的重复数据删除优化处理,都能够在获得高开销重删机制的高数据缩减率的同时,获得接近低开销重删机制的系统可扩展能力。这种基于应用感知的高效能重复数据删除存储技术将为构建绿色数据中心提供关键技术支撑。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
3

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
4

城市轨道交通车站火灾情况下客流疏散能力评价

城市轨道交通车站火灾情况下客流疏散能力评价

DOI:
发表时间:2015
5

基于FTA-BN模型的页岩气井口装置失效概率分析

基于FTA-BN模型的页岩气井口装置失效概率分析

DOI:10.16265/j.cnki.issn1003-3033.2019.04.015
发表时间:2019

付印金的其他基金

相似国自然基金

1

面向大数据备份的重复数据删除关键技术研究

批准号:61402061
批准年份:2014
负责人:谭玉娟
学科分类:F0204
资助金额:26.00
项目类别:青年科学基金项目
2

重复数据删除存储系统的可靠性关键技术研究

批准号:61772439
批准年份:2017
负责人:毛波
学科分类:F0204
资助金额:16.00
项目类别:面上项目
3

云存储系统中重复数据删除技术研究

批准号:61402385
批准年份:2014
负责人:毛波
学科分类:F0204
资助金额:26.00
项目类别:青年科学基金项目
4

云存储中重复数据删除的数据布局策略研究

批准号:61373120
批准年份:2013
负责人:蒋泽军
学科分类:F0214
资助金额:79.00
项目类别:面上项目