With the growing amount of data in backup storage system, multi-level redundancy elimination that combines data deduplication, delta compression, and traditional data deduplication techniques, is able to maximally identify and eliminate redundant data at the levels of duplicate chunks, similar chunks, and duplicate strings respectively, and thus is gaining increasing attention. To address the new challenges of indexing & computing overheads and fragmentation issues stem from multi-level redundancy elimination, we propose approaches to explore the relationships between the redundant data and backup data semantics, such as users, versions, file attributes, data locality, etc. Then we propose a backup-data-semantics-aware indexing scheme for multi-level redundancy elimination to reduce the overheads for indexing the similar and duplicate chunks. Next, we propose a computational model of multi-level redundancy elimination to design the parallel computing scheme and thus reduce time overhead for redundancy elimination, and further study the redundancy workloads to better schedule the parallelizing tasks. Finally, we suggest exploiting backup data semantics to design a fragmentation elimination scheme and a restore cache replacement policy for better restore performance after multi-level redundancy elimination. The launching of this proposal can provide new methods for improving multi-level redundancy elimination techniques in backup storage systems and thus promote the use of multi-level redundancy elimination in other areas.
随着备份存储系统的数据规模持续增长,多层次冗余消除作为一种融合了重复数据删除、差量压缩和传统压缩的技术,能够分别从重复数据块、相似数据块、重复字符串等多个层次来最大化地检测和消除大规模备份系统中的冗余数据,从而获得越来越多的关注。针对多层次冗余消除带来的索引开销、计算开销、数据碎片等问题与挑战,项目提出了分析和挖掘多层次冗余数据分布与备份数据的用户、版本、文件属性、局部性等语义关联的方法,并据此研究基于备份数据语义感知的重复数据和相似数据的索引组织模式及检测机制,来减少多层次冗余消除的索引开销;研究基于多层次冗余消除计算模型学习的并行计算策略,和基于冗余负载预测的任务调度机制,来加快多层次冗余消除的计算过程;研究基于备份数据语义挖掘的碎片消除和恢复缓存替换算法,来提升冗余消除后的恢复性能。项目将为面向数据备份的多层次冗余消除研究提供新的方法和途径,并推进多层次冗余消除技术的更广泛应用。
本项目结合现在用户备份的数据呈非结构化、数据规模持续增长等趋势,研究了联合了重复数据删除、差量压缩和传统数据压缩的多层次冗余数据消除技术,以最大化缩减用户数据,提高存储效率。具体而言,主要取得如下成果:.(1)梳理了近200篇冗余数据消除技术相关研究论文,并归类整理相关的具体技术、应用场景、未来研究方向等,最后撰写成综述论文,并作为封面论文发表在Proceedings of the IEEE上(影响因子:9.1);.(2)提出了一种应用于冗余数据检测的快速高效的基于内容分块算法FastCDC,其速度大约是经典的开源Rabin分块算法的10倍,并保障系统的冗余消除效果;.(3)提出了基于相似冗余数据聚合的压缩算法DEC,对传统的压缩算法的压缩率提升了20%-71%,压缩速度提升了17%-183%,同时保障不牺牲恢复速度;.(4)提出了利用局部性来选择性进行差量压缩的方法SDC,与直接在数据去重后做差量压缩相比,SDC可以提升恢复性能1.93-7.48倍,而压缩率的损失仅为2.6%-4.5%;.(5)提出了一种基于数据去重感知的低开销数据冗余方法DARM,在保障数据高可用的前提下,相对于经典的Deep Store方法,DARM 最高减少了43.4%的存储开销;.受项目支持,在IEEE Transactions等国际期刊和本领域重要的国际会议(USENIX ATC、INFOCOM、IPDPS、ICDCS等)上发表论文22篇(含已录用FAST'19论文),其中在国际期刊(如PIEEE、TPDS 、TC、FGCS)等发表论文8篇,计算机工程与科学等1篇。培养硕博研究生9名(已毕业7名),申请中国发明专利11项,并获得2018年湖北省科技进步一等奖一项。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
特斯拉涡轮机运行性能研究综述
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
基于语义挖掘的Web金融信息情感分析关键技术研究
基于社会媒体信息挖掘的图像语义理解关键技术研究
考虑故障覆盖和切换失效的、带有温备份的冗余系统可靠性研究
基于语义映射Peer数据管理系统的关键技术研究