In the era of big data, due to the inherent characteristics of big data, big data backup has shown many new features, such as shifting from full backups to incremental backups, posing the higher demand for data backup and restore performance, requiring more quality of service levels because diverse data types with different values, and so on. These features present unprecedented challenges for existing data deduplication methods. This project will conduct research on several key deduplication approaches on big data backups, including (1)Proposing semantic-aware multi-granularity deduplication approach, which identifies redundant data with multi-granularity redundancy according to data semantics, to boost deduplication throughput and meet high backup performance requirement for big data backup. (2)Proposing redundancy-aware data distribution and placement approach, which reduces data fragmentation and optimizes data layout within the storage node or among multiple storage nodes, working to boost real-time data restore performance and meet high restore performance requirement for big data backup. (3)Proposing data redundancy estimation model and multi-performance object optimization model, which estimates the data redundancy of various data types to configure optimized deduplication methods, thus to meet varieties of backup quality of service levels requirement for big data backup. This project will finally build big data backup deduplication storage systems with these key approaches to meet the requirement for big data backups. ..
在大数据时代,受大数据自身特点的影响,大数据备份呈现出新的特征,包括备份方式的改变,大数据对实时备份和恢复性能要求的提高,大数据的数据类型和数据价值的多样化以及备份服务等级的多样化等,基于传统数据备份的重复数据删除方法受到了空前的挑战。本项目拟研究多项适用于大数据备份的重复数据删除关键技术,包括(1)基于语义感知的多粒度冗余鉴别方法,根据语义环境进行多粒度的冗余数据鉴别,提升重复数据删除吞吐率,满足大数据的高性能数据备份需求;(2)基于数据重复相关性的数据分布和放置策略,优化存储节点内和节点间的数据布局,提升实时恢复性能,满足大数据的高性能数据恢复需求;(3)数据冗余度估算模型和自适应的多性能目标优化模型,在数据去重前估算基于数据类型的数据冗余度,配置优化的数据去重方法,满足大数据所需的多种数据备份服务等级需求。本项目拟通过对上述内容的研究,最终构建适用于大数据备份的重复数据删除存储系统。
在大数据时代,受大数据自身特点的影响,大数据备份呈现出新的特征,包括备份方式的改变 ,大数据对实时备份和恢复性能要求的提高,大数据的数据类型和数据价值的多样化以及备份服务等级的多样化等,基于传统数据备份的重复数据删除方法受到了空前的挑战。在项目执行期间,项目组成员研究多项适用于大数据备份的重复数据删除关键技术,包括(1)研究适用于大数据存储和云存储的基于数据类型的数据冗余度鉴别方式,尤其是提出了针对压缩文件的数据冗余度鉴别方法,解决了压缩文件主导的大数据和云存储备份中无法对压缩文件进行重复数据删除的问题;(2)研究面向大数据备份的分布式重复数据删除存储系统的数据冗余度鉴别方式,提出基于上下文语义感知的数据路由和冗余度鉴别方法,避免了指纹查询所需的计算和内存瓶颈,提升了分布式重复数据删除存储系统吞吐率;(3)研究基于数据重复性相关的数据分布和放置策略,提出了基于数据重复性相关的碎片解决方法,该方法以大小可变的数据组为碎片识别单位和数据存储单元,能更加精确地识别和减少碎片,提升恢复性能,同时不牺牲重复删除率;(4)针对现有重复数据删除存储系统仅针对数据备份系统中某一个或两个性能指标进行优化的问题,研究多目标性能优化的重复数据删除方法的研究,提出了基于多目标的性能分析框架。项目组通过对上述内容的研究,构建了适用于大数据备份的重复数据删除存储系统,并将上述关键技术点进行了实验验证和对比测试。与已有的相关方法相比,本项目组提出的上述方法针对大数据备份呈现出的新特征,能更好地解决大数据备份所呈现的新问题,满足大数据备份的需求。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
混采地震数据高效高精度分离处理方法研究进展
国际比较视野下我国开放政府数据的现状、问题与对策
面向大数据保护的高效能重复数据删除存储关键技术研究
重复数据删除存储系统的可靠性关键技术研究
云存储系统中重复数据删除技术研究
云存储中重复数据删除的数据布局策略研究