大规模文件系统中元数据高效访问方法研究

基本信息
批准号:61370059
项目类别:面上项目
资助金额:71.00
负责人:肖利民
学科分类:
依托单位:北京航空航天大学
批准年份:2013
结题年份:2017
起止时间:2014-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:阮利,李秀桥,李勇男,霍志胜,姚光超,段文博,商梦德,谢柯,钟潜潜
关键词:
元数据访问文件查找文件搜索大规模文件系统文件创建
结项摘要

Large-scale file system is one of the important technologies to implement the storage of big data. Nowadays, the metadata access method in large- scale file system is one of hottest research problems all over the world. However, current research efforts on this problem cannot fully satisfy the challenges facing the trends of large-scale file system in various aspects, including large-scale directory tree structure, large-scale file amount, metadata-intensive accesses and current workloads from versatile application fields. Due to the significant increase in file system scale, the metadata operations, such as file lookup, file search and file creation, suffers serious metadata performance problems, including reduction of cache space utilization, enlargement of file search space, lack of metadata access locality and resource contention of concurrent accesses. This project aims to improve the metadata access performance in large-scale file system. By optimizing the I/O paths for different types of metadata operations, the project focuses on studying efficient metadata access methods: the file lookup method based on directory tree partition strategy and partition structure with reversed link, the parallel file search method based on flat directory tree structure technique, the parallel file create method based on multiple-phases commit protocol and metadata aggregation technique and the method of guarantee metadata access performance for different workloads with support of metadata QoS (quality of service). The research efforts of this project have important theory meanings and application values on the aspects of improving the overall performance and scalability of large-scale file system and stimulating technology innovates in big data research area.

大规模文件系统是应对大数据存储需求的重要技术途径之一,其元数据的访问方法是当前国内外研究热点。然而,现有研究难以满足大规模文件系统在大规模目录树结构、大规模文件数量、密集型元数据访问、并发多类型负载等方面的新挑战:文件查找、搜索、创建等典型操作中因文件系统规模扩展导致的缓存空间利用率降低、文件搜索空间增大、元数据访问局部性缺失、并发访问资源竞争加剧等元数据访问性能问题。本项目以提高大规模文件系统中元数据访问性能为目标,以元数据操作的I/O路径为主线,研究元数据高效访问的新方法:基于目录子树分区和反向链表缓存结构的文件查找方法、基于目录级多维可伸缩Bloom Filter的文件并行搜索方法、基于多阶段提交协议和元数据聚合机制的文件并行创建方法以及支持元数据服务质量的元数据访问性能保障方法。项目研究工作对提高大规模文件系统整体性能和可扩展能力、促进大数据领域技术创新具有重要的理论意义和应用价值

项目摘要

大规模文件系统是应对大数据存储需求的重要技术途径之一,其元数据访问性能优化是当前国内外研究重点。项目分别从文件查找、文件搜索、文件并发创建、元数据负载服务质量保障等方面,研究元数据访问性能优化方法,提高大规模文件系统的元数据IO性能。.项目主要的研究内容及取得的成果如下:.(1)基于目录子树分区和反向链表缓存结构的文件查找方法。针对现有文件查找方法存在的目录查找表存储开销高问题,提出了基于目录子树分区和反向链表缓存结构的文件查找方法,可提高目录查找表缓存的空间利用率,并降低文件查找的平均时延。.(2)基于目录级多维Bloom Filter的文件并行搜索方法。针对现有文件搜索方法存在的准确度低、额外存储开销高及串行化搜索性能低等问题,提出了基于目录级多维Bloom Filter的文件并行搜索方法,可提高多元数据服务器环境中的文件搜索性能。.(3)基于多阶段提交协议和元数据聚合机制的文件并行创建方法。针对现有文件创建方法存在的元数据访问局部性缺失问题,提出了基于多阶段提交协议和元数据聚合机制的文件并行创建方法,可提高文件并发创建的执行效率。.(4)支持元数据服务质量的元数据访问性能保障方法。通过分析不同类型的元数据访问负载性能特点和需求,建立了元数据服务质量的描述机制和转换方法以及资源分配方法,可避免多并发负载之间的相互影响,并保障多负载环境中元数据访问的整体性能。.(5)在原型系统中验证了项目所提方法的效果。以典型的基准测试程序和真实应用程序的Trace记录为基础,通过研发支持上述项目所提方法的原型系统,验证并评价了项目所提方法的效果。实验结果表明,相比于当前最新研究方法,本项目所提方法能够提高元数据查询性能约17.1%,提高元数据搜索性能约2倍,提高密集型元数据并发创建性能约80%,并保障多种类型元数据负载并发访问的服务质量,完全满足项目计划书中对元数据访问性能优化的预期指标。.基于项目的研究成果,项目组在JSC、JCST、HPCC、FPT等高水平期刊和国际会议中,共发表了45篇学术论文,其中,SCI检索16篇,EI检索29篇;申请了发明专利 10项,其中4项已获得授权;培养了5名博士生和7名硕士生,其中已毕业3名博士生和6名硕士生;项目在文件搜索优化方面的研究成果已应用于航天恒星科技有限公司项目“EB级数据存储架构理论与关键技术” 建立的存储系统中。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015
4

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020
5

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

DOI:10.3969/j.issn.1002-0268.2020.03.007
发表时间:2020

肖利民的其他基金

相似国自然基金

1

机群文件系统小文件I/O访问性能优化方法研究

批准号:60973007
批准年份:2009
负责人:肖利民
学科分类:F0204
资助金额:30.00
项目类别:面上项目
2

基于属性加密的数据访问控制方法研究

批准号:61662071
批准年份:2016
负责人:刘雪艳
学科分类:F0206
资助金额:40.00
项目类别:地区科学基金项目
3

精确的中断数据访问冲突检测方法研究

批准号:61802017
批准年份:2018
负责人:陈睿
学科分类:F0203
资助金额:25.00
项目类别:青年科学基金项目
4

数据仓库中元数据管理的方法与技术研究

批准号:60074038
批准年份:2000
负责人:王延章
学科分类:F0308
资助金额:16.00
项目类别:面上项目