The human society has stepped into the big data era. As the foundation of big data applications, the networks face many challenges, which unfortunately do not get enough attention. This project, based on the concept of software-defined network (SDN) and oriented to the big data processing frameworks such as Hadoop, Spark, GraphLab and so on, aims to explore the ways to accelerate data transfer and the techniques to implement efficient data transfer service. The detailed research contents are as follows..1)Analyze the communication characteristics of popular big data processing frameworks and mine the real world operation logs to find out some frequent communication patterns as the basis for data transfer optimization..2)Resolve the scalability and efficiency challenges facing large-scale network resources management and allocation from the perspectives of distributed SDN controller design and joint computing and network optimization..3)Combine the key ideas of SDN and information-centric network (ICN) to implement network flow caching and flow content prefetching, and solve the related key issues such as flow identification and query, cache placement, and policies for caching and prefetching..4)Design and implement a user-friendly and extensible big data transfer service, which will integrate not only the technologies developed in this project but also other successful optimizations in practice to provide strong support for efficient big data transfer.
人类社会已步入了大数据时代,但作为大数据应用基础的网络问题并没有受到足够的重视。本项目在软件定义网络的基础上,面向Hadoop、Spark、GraphLab等典型的大数据处理框架和应用模式,探究加速大数据传输性能的方法及其服务实现技术,具体的研究内容包括:.1)分析典型大数据计算框架的通信特点,对实际场景中的应用日志进行挖掘,发掘出常见的网络流量模式,作为数据传输优化的基础。.2)探究大规模网络资源的管理与分配方法,设计分布式的软件定义网络控制器和计算感知的网络资源分配算法,提高网络资源管控的可扩展性,提升网络吞吐率。.3)探究软件定义网络和信息中心网络融合的方法,实现网络流的缓存与预取,解决网络流的标识与检索、缓存位置的选取、缓存与预取算法等难题。.4)设计并实现用户有好的、功能可扩展的大数据传输服务,集成所研发的各种关键技术以及其他传输优化措施,为高效大数据传输提供支持。
本项目面向下一代互联网基础设施以及新近出现的大数据计算模式和全景视频应用,围绕大数据加载与传输这一关键问题和需求,从基础设施、算法和应用多个层面探究提升传输质量和计算性能的方法与技术。项目已经完成了全部研究内容,取得了丰硕的成果,共发表学术论文20余篇,其中CCF A类论文9篇,B类论文5篇。项目的主要成果和关键数据说明如下:.1. 在基础设施层面,重点围绕改善多核集群IO性能进而提升MapReduce处理性能以及改进RDMA的工作机制进而加速数据传输性能而展开工作,提出了mpCache,一种高效支持MapReduce在众核集群上高可扩展性的基于SSD混合存储系统,该系统不仅为IO密集型任务提供高IO速度同时也保证内存密集型任务的并行度,相比Hadoop平均可取得2.09倍的加速比,相比PACMan平均可取得1.79倍的加速比;提出了一种新型的RDMA设计模式——远程获取模式,该模式不仅支持传统的RPC接口以及上层系统,而且具有更高的性能——相比服务器回复模式性能提升1.6~3.1倍,相比服务器旁路模式,性能可提升4倍。.2. 在算法层面,针对MapReduce和图计算,提出了针对MapReduce,可减少跨节点数据传输和平衡各节点负载的智能倾斜缓和以及资源调度方案Skew--,相比Hadoop YARN平均可取得1.98倍的加速比,相比SkewTune平均可取得1.65倍的加速比,在Reduce阶段相比TopCluster平均可取得1.25倍的加速比;提出了针对分布式图计算、可减少跨节点通信的三维图数据划分方案,相比PowerGraph计算效率提升高达7.3倍,相比PowerLyra提升高达4.7倍;提出了可减少磁盘IO总量的外存图计算方法,在真实的图数据集上,相比已有的系统,可取得高达数十倍甚至数千倍的性能加速比。.3. 在应用层面,针对全景视频应用,提出了基于网络时延的视场选择和自适应视频传输算法,有效地将视频传输质量提升3倍;提出了支持全景视频内容分发的多径传输算法,相对于最优单径策略可以将视频传输比特率提升2倍以上,同时避免了冗余数据传输;提出了了支持全景视频流边缘缓存与预取的算法,与目前最新的基于视块的缓存策略相比,该方法在提高12.9%视频传输质量的同时只需50%的视频质量转换频率。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
跨社交网络用户对齐技术综述
城市轨道交通车站火灾情况下客流疏散能力评价
基于FTA-BN模型的页岩气井口装置失效概率分析
圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察
基于节点质量的无线传感网数据传输关键技术研究
多种基础设施辅助的VANET数据传输关键技术研究
面向无线传感器网络大数据传输的关键技术研究
半封闭狭长空间无线数据传输可靠性关键技术研究