基于关联性的分布式元数据存取优化研究

基本信息
批准号:61772486
项目类别:面上项目
资助金额:66.00
负责人:许胤龙
学科分类:
依托单位:中国科学技术大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:李永坤,梁杰,郭帆,王昕,陈友旭,白有辉,刘军明,陈浩,魏舒展
关键词:
存储元数据文件系统关联性
结项摘要

In file systems, I/Os for accessing metadata account for more than half of all I/Os. Metadata access is one of the key factors for the performance of large scale distributed small-file systems. This project aims to study the layout of metadata in large scale distributed file systems, the load management and I/O optimization, to achieve efficient access of large-scale metadata, and further improve the system access performance. The main research contents and objectives are the follows. .(1) We study the mathematical models of several types of correlations among metadata, and design lightweight and efficient correlation identification algorithms. Based on the correlations of metadata, we implement efficient metadata distribution in a metadata cluster. We will also take advantage of correlations and prefetching to improve access efficiency of metadata. .(2) According to the characteristics of metadata and their correlations, we design lightweight and efficient deduplication and compression algorithms to improve memory reuse rate and reduce the swap of metadata between memory and external storage..(3) According to some features of massive amount of metadata, such as small size, large volume, etc, combining with the correlations of metadata, we design efficient erasure codes and implement them efficiently to reduce the volume of metadata for fault tolerance, and further reduce memory overhead and accelerate metadata access. .(4) We will build a prototype of distributed file system, and in it we will implement the metadata access optimization techniques to improve its overall I/O performance. Particularly, the overall I/O performance in file systems with limited memory space will be greatly improved.

在文件系统中,对元数据的I/O操作占全部I/O操作的一半以上。元数据存取是大型分布式小文件系统性能的关键因素之一。本项目研究大型分布式文件系统中元数据的布局、负载管理及I/O优化,实现大规模元数据的高效存取,提高系统访问性能。主要研究内容与目标有:(1)研究元数据几类关联性的数学模型及轻量级高效关联性识别算法,并利用元数据之间的关联性,在元数据服务器集群中合理布局元数据,结合预取技术提高元数据的存取效率;(2)针对元数据的特点,结合元数据的关联性,设计轻量级高效内存重删与压缩算法,提高内存复用率,减少元数据存取的内外存交换;(3)针对海量元数据粒度小、数据量大的特点,结合元数据的关联性,设计高效的纠删码并加以优化实现,降低元数据容错带来的内存开销,加速元数据的存取;(4)实现一个分布式文件原型系统,采用元数据优化技术,提高文件的读写性能。特别对内存受限的分布式系统,读写性能将有很大提升。

项目摘要

本项目在执行过程中,共发表论文33篇,其中CCF A类论文19篇,包括系统领域的顶级会议与期刊Fast’2021、Fast’2022、SOSP’2021、ATC’2021、ATC’2019、ATC’2018、ACM Transactions on Storage、IEEE TPDS、IEEE ToC等,CCF B类论文8篇,获批专利4项。培养毕业博士生5名、硕士生1名。相关工作成果基本都在开源的原型系统中得以实现,性能有明显提升,对产业界有一定的参考价值,并且与国内键值存储系统最好的PingCap公司有深度合作。.本项目资助的主要成果有:.1. 首次引入了文件间的引用关系所带来的元数据关联性,并应用到分布式文件系统的元数据预取策略中,实现了一套原型系统SMeta。相比于原生Ceph存储系统,针对不同的应用,SMeta访问元数据的I/O次数可以减少18.1%-78.6%。.2. 针对分布式元数据服务集群,提出了一种不均衡因子模型来准确地确定触发迁移与容忍不均衡的时机和迁移决策方案Lunule。相比于原生Ceph存储系统,Lunule整体吞吐量上取得了最高315.8%的提升。.3. 针对NVMe SSD和传统SSD/HDD混合存储结构,优化设计实现了键值存储系统SpanDB,对健值数据库软件栈进行了全面的适配性重构。SpanDB将原有RocksDB系统的吞吐量提高了8.8倍;与完全采用高端SSD的系统KVell相比,将KVell的延迟降低了2.3-21.6倍。.4. 设计了一个基于副本解耦的高性能分布式键值存储系统DEPART。DEPART采用哈希,计算并结合一致性哈希环对副本数据进行解耦,并对解耦出的主副本和冗余副本进行差异化存储。DEPART可将分布式键值存储系统Cassandra的读写性能分别提升1.4倍和2.5倍。.5. 设计并实现了一个并行分布式神经网络训练框架HiPress,包括梯度同步策略CASync与梯度压缩算法开发工具包CompLL。对比不带压缩的BytePS和Horovod-Ring,将训练速度提升18.3-106.4%;对比带压缩的BytePS-onebit和Ring-DGC,提升14.9-66.2%。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015
4

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

DOI:10.3969/j.issn.1002-0268.2020.03.007
发表时间:2020
5

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

DOI:10.11999/JEIT210095
发表时间:2021

许胤龙的其他基金

批准号:61073038
批准年份:2010
资助金额:34.00
项目类别:面上项目
批准号:60773036
批准年份:2007
资助金额:26.00
项目类别:面上项目
批准号:60173048
批准年份:2001
资助金额:19.00
项目类别:面上项目
批准号:61379038
批准年份:2013
资助金额:79.00
项目类别:面上项目

相似国自然基金

1

基于新型存储的大数据存取优化技术研究

批准号:61672479
批准年份:2016
负责人:金培权
学科分类:F0202
资助金额:63.00
项目类别:面上项目
2

分布式环境下基于可堆叠技术的信息安全存取模式研究

批准号:60503013
批准年份:2005
负责人:管海兵
学科分类:F0205
资助金额:20.00
项目类别:青年科学基金项目
3

分布式数据挖掘优化技术

批准号:60573139
批准年份:2005
负责人:刘志镜
学科分类:F0207
资助金额:22.00
项目类别:面上项目
4

面向分布式异构云数据中心的数据布局优化研究

批准号:61602112
批准年份:2016
负责人:熊润群
学科分类:F0207
资助金额:21.00
项目类别:青年科学基金项目