面向大数据备份的重复数据删除关键技术研究

基本信息

批准号：61402061

项目类别：青年科学基金项目

资助金额：26.00

负责人：谭玉娟

学科分类：

依托单位：重庆大学

批准年份：2014

结题年份：2017

起止时间：2015-01-01 - 2017-12-31

项目状态：已结题

项目参与者：晏志超,杨蕾,姜炜文,李健,聂文迪,段垚鑫

关键词：

重复数据删除数据存储

结项摘要

In the era of big data, due to the inherent characteristics of big data, big data backup has shown many new features, such as shifting from full backups to incremental backups, posing the higher demand for data backup and restore performance, requiring more quality of service levels because diverse data types with different values, and so on. These features present unprecedented challenges for existing data deduplication methods. This project will conduct research on several key deduplication approaches on big data backups, including (1)Proposing semantic-aware multi-granularity deduplication approach, which identifies redundant data with multi-granularity redundancy according to data semantics, to boost deduplication throughput and meet high backup performance requirement for big data backup. (2)Proposing redundancy-aware data distribution and placement approach, which reduces data fragmentation and optimizes data layout within the storage node or among multiple storage nodes, working to boost real-time data restore performance and meet high restore performance requirement for big data backup. (3)Proposing data redundancy estimation model and multi-performance object optimization model, which estimates the data redundancy of various data types to configure optimized deduplication methods, thus to meet varieties of backup quality of service levels requirement for big data backup. This project will finally build big data backup deduplication storage systems with these key approaches to meet the requirement for big data backups. ..

在大数据时代，受大数据自身特点的影响，大数据备份呈现出新的特征，包括备份方式的改变，大数据对实时备份和恢复性能要求的提高，大数据的数据类型和数据价值的多样化以及备份服务等级的多样化等，基于传统数据备份的重复数据删除方法受到了空前的挑战。本项目拟研究多项适用于大数据备份的重复数据删除关键技术，包括（1）基于语义感知的多粒度冗余鉴别方法，根据语义环境进行多粒度的冗余数据鉴别，提升重复数据删除吞吐率，满足大数据的高性能数据备份需求；（2）基于数据重复相关性的数据分布和放置策略，优化存储节点内和节点间的数据布局，提升实时恢复性能，满足大数据的高性能数据恢复需求；（3）数据冗余度估算模型和自适应的多性能目标优化模型，在数据去重前估算基于数据类型的数据冗余度，配置优化的数据去重方法，满足大数据所需的多种数据备份服务等级需求。本项目拟通过对上述内容的研究，最终构建适用于大数据备份的重复数据删除存储系统。

项目摘要

在大数据时代，受大数据自身特点的影响，大数据备份呈现出新的特征，包括备份方式的改变，大数据对实时备份和恢复性能要求的提高，大数据的数据类型和数据价值的多样化以及备份服务等级的多样化等，基于传统数据备份的重复数据删除方法受到了空前的挑战。在项目执行期间，项目组成员研究多项适用于大数据备份的重复数据删除关键技术，包括（1）研究适用于大数据存储和云存储的基于数据类型的数据冗余度鉴别方式，尤其是提出了针对压缩文件的数据冗余度鉴别方法，解决了压缩文件主导的大数据和云存储备份中无法对压缩文件进行重复数据删除的问题；（2）研究面向大数据备份的分布式重复数据删除存储系统的数据冗余度鉴别方式，提出基于上下文语义感知的数据路由和冗余度鉴别方法，避免了指纹查询所需的计算和内存瓶颈，提升了分布式重复数据删除存储系统吞吐率；（3）研究基于数据重复性相关的数据分布和放置策略，提出了基于数据重复性相关的碎片解决方法，该方法以大小可变的数据组为碎片识别单位和数据存储单元，能更加精确地识别和减少碎片，提升恢复性能，同时不牺牲重复删除率；（4）针对现有重复数据删除存储系统仅针对数据备份系统中某一个或两个性能指标进行优化的问题，研究多目标性能优化的重复数据删除方法的研究，提出了基于多目标的性能分析框架。项目组通过对上述内容的研究，构建了适用于大数据备份的重复数据删除存储系统，并将上述关键技术点进行了实验验证和对比测试。与已有的相关方法相比，本项目组提出的上述方法针对大数据备份呈现出的新特征，能更好地解决大数据备份所呈现的新问题，满足大数据备份的需求。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：10.11707/j.1001-7488.20210410

发表时间：2021

DOI：

发表时间：2017

DOI：10.11844/cjcb.2021.02.0001

发表时间：2021

DOI：

发表时间：2021

谭玉娟的其他基金

批准号：39370485

批准年份：1993

资助金额：5.50

项目类别：面上项目

相似国自然基金

面向大数据保护的高效能重复数据删除存储关键技术研究

批准号：61402518

批准年份：2014

负责人：付印金

学科分类：F0204

资助金额：26.00

项目类别：青年科学基金项目

重复数据删除存储系统的可靠性关键技术研究

批准号：61772439

批准年份：2017

负责人：毛波

学科分类：F0204

资助金额：16.00

项目类别：面上项目

云存储系统中重复数据删除技术研究

批准号：61402385

批准年份：2014

负责人：毛波

学科分类：F0204

资助金额：26.00

项目类别：青年科学基金项目

云存储中重复数据删除的数据布局策略研究

批准号：61373120

批准年份：2013

负责人：蒋泽军

学科分类：F0214

资助金额：79.00

项目类别：面上项目

面向大数据备份的重复数据删除关键技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

智能煤矿建设路线与工程实践

基于PROSAIL模型和多角度遥感数据的森林叶面积指数反演

区块链技术:从数据智能到知识自动化

毛竹微型颠倒重复序列的鉴定及分子标记开发

偏正态数据下混合非线性位置回归模型的统计诊断

谭玉娟的其他基金

普通野生稻抗三化螟基因的转育与遗传评价

相似国自然基金