面向MapReduce的网络存储系统优化技术研究

基本信息
批准号:61272528
项目类别:面上项目
资助金额:82.00
负责人:薛瑞尼
学科分类:
依托单位:电子科技大学
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:赵勇,陈亮,董旭,向辉,王浩严,李小龙,刘鹏,孙夏爽,刘源
关键词:
元数据管理存储系统分布式系统数据预取文件分块
结项摘要

MapReduce is one of the most important approaches for massive data processing based on the cloud computing paradigm. It's not only urgent requirements of real world applications to improve the scalability, dependability, storage efficiency and data access performance of storage system for MapReduce, but also the challenges for future information services targeted to massive data. To address these issues, this proposal would conduct research on these following aspects by taking the file usage pattern of MapReduce as the starting point and aiming at the storage efficiency ad high concurrent accesses for massive data: 1) Distributed metadata management to improve scalability and dependability; 2) Adaptive file chunking to improve storage efficiency; 3) Data prefetching to improve file access performance. Besides eliminating the bottlenecks encountered in real world applications, this proposal also contributs in discussing the framework and scheme for the fusion of typical distributed storage systems and MapReduce storage system, which would provide new theories and supporting tools for more comprehensive, more specific storage system optimization.

以云计算为基础的MapReduce编程模型是当前海量数据处理的重要的方法,提高MapReduce存储系统的扩展性、可靠性、存储效率和数据访问性能是实际应用的迫切需求,也是未来基于海量数据信息服务所面临的挑战。本项目以MapReduce的文件访问模式为依据,以海量数据的高效存储和高并发访问为目标,研究MapReduce存储系统的优化技术,内容包括:1)旨在提高系统扩展性和可靠性的分布式元数据管理技术;2)旨在提高系统存储效率的自适应文件分块技术;3)旨在提高数据访问性能的数据预取技术。本课题通过解决MapReduce实际应用遇到的瓶颈,探索常规分布式存储系统和MapReduce存储系统融合的框架和方法,为更深层次的、更复杂的存储系统优化提供新的理论和支撑工具。

项目摘要

Hadoop是MapReduce的主要实现,HDFS作为Hadoop的存储框架已经被广泛地应用到科研和生产系统中,但HDFS原生系统架构导致其可靠性、扩展性、存储效率和访问性能上仍然存在不足。.本课题针对HDFS元数据管理、存储空间管理和数据获取技术进行了研究:提出了面向应用的多一致性分布式元数据管理系统,提出了基于NoSQL的元数据管理机制,提出了融合纠删码和副本机制的存储方法,提出了基于图匹配的提高数据本地化任务调度策略。.面向应用的元数据管理方法包括两方面创新:一方面将应用划分为独立错误域,执行过程中的临时性故障并不会导致整个系统失效,实现了元数据的持续服务;一方面针对不同数据访问操作提供不同的一致性,并通过在线模型预测访问失效概率,通过异步机制通知应用对异常进行捕获。通过实施布隆过滤器、基数树等优化技术,实验结果证明面向应用的元数据管理方式在不降低应用执行效率的前提下,可以极大提升元数据服务的可靠性和扩展性。.基于NoSQL的元数据管理技术将HDFS元数据映射为NoSQL数据库模型,将对应元数据操作映射为NoSQL数据库操作,保证对应用程序透明,提升了元数据服务的容错性和扩展性。.纠删码和副本机制的有机融合实现了对冷热数据的分类处理,既能够保证热数据的快速访问,又能降低冷数据对存储空间的占用率,且数据的可用性与副本机制相同。构建的判别模型可以动态划分数据的冷度和热度,保证随着数据访问特征的变化,存储方式能提供相应的支持。.基于图匹配的任务调度方法可以在高开销理论最佳调度和低开销启发式调度之间有效平衡,达到了线性复杂度,减少了任务执行过程中数据在网络中的传输量。实验证明所提出的调度算法开销小,实现了最少数据预取量。.上述研究对HDFS原生架构中诸多问题进行了改进,实现了元数据服务的集群化,提高了元数据服务的可靠性和扩展性,提高了存储效率,降低了任务执行中的数据预取量。上述工作对应用程序透明,应用程序无需修改,即可直接运行,兼容性良好,对当前HDFS系统的优化有重要的指导意义。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
4

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
5

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015

薛瑞尼的其他基金

相似国自然基金

1

面向数据中心负载的本地存储系统能效优化技术研究

批准号:61303056
批准年份:2013
负责人:岳银亮
学科分类:F0204
资助金额:27.00
项目类别:青年科学基金项目
2

面向嵌入式系统的TLC NAND闪存存储系统优化技术研究

批准号:61373049
批准年份:2013
负责人:邵子立
学科分类:F0204
资助金额:77.00
项目类别:面上项目
3

面向嵌入式闪存存储系统的系统纵向优化关键技术研究

批准号:61572411
批准年份:2015
负责人:薛春
学科分类:F0204
资助金额:66.00
项目类别:面上项目
4

面向高性能计算平台的多级层次结构并行存储系统的优化技术研究

批准号:61872299
批准年份:2018
负责人:廖剑伟
学科分类:F0204
资助金额:61.00
项目类别:面上项目