When distributed file system managing big data, it also brings massive parallel data transmission that may lead to regional network congestion and imbalanced usage. .Research has found that, the chunk selection strategy employed by distributed file system can be optimized. The key point is to measure the network status of a distributed system in a real-time manner, and to choose reasonable data node in response to each incoming read/write request. .To prove this idea, this project proposes DFS-NetEye, a network measurement and scheduling system. We explore the possibility of building an open scheduling algorithm test framework, as well as establishing network workload evaluation architecture.
分布式文件系统在管理海量数据的同时,也带来大量并发的网络传输,容易引发或加剧局部网络的拥塞,进而导致数据中心内部网络的不均衡使用。研究发现分布式文件系统读写操作中所采用的数据块选择策略,存在较大的优化空间。关键问题在于如何让系统实时感知其所处网络的状况及变化,在挑选目标数据节点时避开拥塞的网络区域,从而确保网络资源的负载均衡。为证明此设想,在不改变HDFS高容错性和高吞吐量等已有特性的情况下,研发网络度量框架DFS-NetEye,探索读写调度算法通用测试框架,尝试建立网络负载均衡评价体系。
为充分利用所有节点的存储资源以提供超大吞吐量的数据处理服务,也为了在部分节点或网络发生故障时不丢失数据,数据中心越来越多地部署了分布式文件系统,并在此基础上运行着大型数据处理任务。分布式文件系统快速并发地处理着海量的数据,同时也占用了海量的带宽资源,容易引发或加剧局部网络的拥塞,进而导致数据密集型集群内部网络资源的不均衡使用。迫切需要提升分布式文件系统读写操作的网络效率,更均衡地使用网络资源,更高效地管理海量数据集。.本项目研究基于网络度量的分布式文件系统读写调度关键技术,研究如何在名字节点和大量数据节点组成的集群上,让每一个节点都能快速感知周边网络的状况及变化,并据此优化读写操作中的节点选择与路径规划技术,从而更均衡合理地使用网络资源。.本项目按计划顺利执行完成,主要研究三个方面的内容。首先,研究基于分布式文件系统读写调度关键技术,构建网络度量与调度子系统DFS-NetEye。其次,提出了基于端到端可用带宽的度量技术,从理论模型、模拟仿真、到依托计算机集群资源开展实验,验证了技术的可行性。然后,深入拆解了以HDFS为代表的分布式文件系统,把网络度量与感知技术加入到了分布式文件系统的实现中。.项目组的研究取得了两个重要结果,分别是基于主动探测机制的端到端网络度量技术和基于网络度量技术的DFS-NetEye。随着大数据处理需求的快速增长,分布式文件系统的网络均衡性问题将会受到越来越多的关注,各种调度算法都有可能出现,每种算法都有其最佳使用场景和不适用的极端情况。为减少重复工作,也为了让调度算法的研究更便捷高效,项目组分类整理了适用于中小规模集群的测试数据集。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
城市轨道交通车站火灾情况下客流疏散能力评价
基于FTA-BN模型的页岩气井口装置失效概率分析
基于图卷积网络的归纳式微博谣言检测新方法
多源数据驱动CNN-GRU模型的公交客流量分类预测
网格文件系统关键技术研究
分布式设备多目标协同制造的网络综合调度关键技术研究
分布式闪存文件系统的高效构建技术研究
分布式文件系统通用化性能评测与缓存调度方法研究