备份系统中基于语义挖掘的多层次冗余消除关键技术研究

基本信息

批准号：61502190

项目类别：青年科学基金项目

资助金额：22.00

负责人：夏文

学科分类：

依托单位：华中科技大学

批准年份：2015

结题年份：2018

起止时间：2016-01-01 - 2018-12-31

项目状态：已结题

项目参与者：王芳,付忞,黄方亭,张宇成,周玉坤,王强,肖玉,周双鹏,颜学峰

关键词：

重复数据删除差量压缩恢复性能备份存储系统冗余数据消除

结项摘要

With the growing amount of data in backup storage system, multi-level redundancy elimination that combines data deduplication, delta compression, and traditional data deduplication techniques, is able to maximally identify and eliminate redundant data at the levels of duplicate chunks, similar chunks, and duplicate strings respectively, and thus is gaining increasing attention. To address the new challenges of indexing & computing overheads and fragmentation issues stem from multi-level redundancy elimination, we propose approaches to explore the relationships between the redundant data and backup data semantics, such as users, versions, file attributes, data locality, etc. Then we propose a backup-data-semantics-aware indexing scheme for multi-level redundancy elimination to reduce the overheads for indexing the similar and duplicate chunks. Next, we propose a computational model of multi-level redundancy elimination to design the parallel computing scheme and thus reduce time overhead for redundancy elimination, and further study the redundancy workloads to better schedule the parallelizing tasks. Finally, we suggest exploiting backup data semantics to design a fragmentation elimination scheme and a restore cache replacement policy for better restore performance after multi-level redundancy elimination. The launching of this proposal can provide new methods for improving multi-level redundancy elimination techniques in backup storage systems and thus promote the use of multi-level redundancy elimination in other areas.

随着备份存储系统的数据规模持续增长，多层次冗余消除作为一种融合了重复数据删除、差量压缩和传统压缩的技术，能够分别从重复数据块、相似数据块、重复字符串等多个层次来最大化地检测和消除大规模备份系统中的冗余数据，从而获得越来越多的关注。针对多层次冗余消除带来的索引开销、计算开销、数据碎片等问题与挑战，项目提出了分析和挖掘多层次冗余数据分布与备份数据的用户、版本、文件属性、局部性等语义关联的方法，并据此研究基于备份数据语义感知的重复数据和相似数据的索引组织模式及检测机制，来减少多层次冗余消除的索引开销；研究基于多层次冗余消除计算模型学习的并行计算策略，和基于冗余负载预测的任务调度机制，来加快多层次冗余消除的计算过程；研究基于备份数据语义挖掘的碎片消除和恢复缓存替换算法，来提升冗余消除后的恢复性能。项目将为面向数据备份的多层次冗余消除研究提供新的方法和途径，并推进多层次冗余消除技术的更广泛应用。

项目摘要

本项目结合现在用户备份的数据呈非结构化、数据规模持续增长等趋势，研究了联合了重复数据删除、差量压缩和传统数据压缩的多层次冗余数据消除技术，以最大化缩减用户数据，提高存储效率。具体而言，主要取得如下成果：.（1）梳理了近200篇冗余数据消除技术相关研究论文，并归类整理相关的具体技术、应用场景、未来研究方向等，最后撰写成综述论文，并作为封面论文发表在Proceedings of the IEEE上（影响因子：9.1）；.（2）提出了一种应用于冗余数据检测的快速高效的基于内容分块算法FastCDC，其速度大约是经典的开源Rabin分块算法的10倍，并保障系统的冗余消除效果；.（3）提出了基于相似冗余数据聚合的压缩算法DEC，对传统的压缩算法的压缩率提升了20%-71%，压缩速度提升了17%-183%，同时保障不牺牲恢复速度；.（4）提出了利用局部性来选择性进行差量压缩的方法SDC，与直接在数据去重后做差量压缩相比，SDC可以提升恢复性能1.93-7.48倍，而压缩率的损失仅为2.6%-4.5%；.（5）提出了一种基于数据去重感知的低开销数据冗余方法DARM，在保障数据高可用的前提下，相对于经典的Deep Store方法，DARM 最高减少了43.4%的存储开销；.受项目支持，在IEEE Transactions等国际期刊和本领域重要的国际会议（USENIX ATC、INFOCOM、IPDPS、ICDCS等）上发表论文22篇（含已录用FAST'19论文），其中在国际期刊（如PIEEE、TPDS 、TC、FGCS）等发表论文8篇，计算机工程与科学等1篇。培养硕博研究生9名（已毕业7名），申请中国发明专利11项，并获得2018年湖北省科技进步一等奖一项。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

DOI：10.13592/j.cnki.ppj.2016.0515

发表时间：2017

DOI：

发表时间：2019

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

夏文的其他基金

批准号：31601397

批准年份：2016

资助金额：20.00

项目类别：青年科学基金项目

相似国自然基金

基于语义挖掘的Web金融信息情感分析关键技术研究

批准号：61562032

批准年份：2015

负责人：万常选

学科分类：F0202

资助金额：40.00

项目类别：地区科学基金项目

基于社会媒体信息挖掘的图像语义理解关键技术研究

批准号：61103059

批准年份：2011

负责人：唐金辉

学科分类：F0209

资助金额：24.00

项目类别：青年科学基金项目

考虑故障覆盖和切换失效的、带有温备份的冗余系统可靠性研究

批准号：71301009

批准年份：2013

负责人：彭锐

学科分类：G0108

资助金额：20.50

项目类别：青年科学基金项目

基于语义映射Peer数据管理系统的关键技术研究

批准号：60503038

批准年份：2005

负责人：覃飙

学科分类：F0202

资助金额：23.00

项目类别：青年科学基金项目

备份系统中基于语义挖掘的多层次冗余消除关键技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于改进LinkNet的寒旱区遥感图像河流识别方法

播种量和施氮量对不同基因型冬小麦干物质累积、转运及产量的影响

基于旋量理论的数控机床几何误差分离与补偿方法研究

智能煤矿建设路线与工程实践

夏文的其他基金

高速射流改性木薯淀粉及其与瓜尔豆胶的界面行为研究

相似国自然基金