SDN technology is mainly used for network management and adopted by data centers. Whether it can be applied to HPC network and used for serving HPC applications has not yet studied. Through our study, we find that there exists a close relationship between SDN technology and HPC applications. On the one hand, part of HPC computers will employ SDN network in the future. On the other hand, more and more HPC applications are deployed in data centers which own a SDN network. At the same time, HPC communication needs SDN technology, which can help it solve problems in sub-HPC network management, application-oriented routing and accelerating communication of special patterns. Therefore, our research is mainly about how to apply SDN technology to HPC applications. In the sub-HPC network management, we will study how to divide sub-HPC network and set routing with SDN technology. In the application-oriented routing, we will study routing optimization based on communication pattern of applications. In the SND network of HPC computers, we will study how to accelerate small message and collective communication. Based on these studies, we hope SDN technology is applied to HPC and improve the performance of HPC applications.
SDN技术主要用于网络管理,并且服务于数据中心,而其是否也适用于HPC网络,并服务于HPC应用尚未有相关研究。本课题通过调研发现,SDN技术与HPC应用之间产生了紧密的联系。一方面,未来部分HPC计算机的网络本身就是具有SDN属性的网络,另一方面越来越多的HPC应用部署在以SDN属性网络搭建起来的数据中心。同时,HPC通信在多“子HPC”网络管理,应用路由优化以及特定通信模式加速方面也存在着对SDN技术的需求。因此,针对这些问题,本课题结合SDN技术的特点开展相关研究,包括:利用SDN技术研究多个“子HPC”的网络划分和路由算法;针对HPC应用的通信模式,利用SDN技术研究面向应用的路由优化问题;在具有SDN属性的HPC网络中,开展特定通信模式如小消息通信和集合通信的加速研究。通过这些问题的研究,本课题期望能够将SDN技术拓展到HPC领域,并且提高HPC应用的性能。
HPC技术在AI计算、大数据处理等新兴热点的推动下,应用越来越普及;同时,随着云计算技术的成熟,HPC应用在数据中心混合部署越来越普遍。因此,不同HPC应用之间的高效资源共享、性能隔离及安全性问题变得越来越重要。在此背景下,本课题主要研究利用SDN技术实现HPC应用的网络共享、隔离与安全。首先,有别于传统“黑盒”的网络Trace方式,本课题通过对典型应用进行深度解构,提出了基于真实业务场景的网络流量拟合仿真方法,并开发完成了高效的网络模拟器。以此为基础,本课题针对不同网络拓扑与拥塞控制策略进行了上万节点规模的仿真评估,发现了真实流量下的网络瓶颈和拥塞问题,并作为本课题研究网络通信模式的基础。其次,本课题提出了面向HPC应用的节点网卡半虚拟化方法,实现了高效安全的节点级通信复用和性能隔离;虚拟环境下HPC应用网络性能能够接近物理硬件裸性能,虚拟化引入的性能损耗最大不超过5%。其作为本课题节点网络流量共享调度的导入点,与物理网络共同组成统一的通信调度系统。最终,本课题提出了统一的IO调度管理策略和方法,利用高性能网络RDMA的特性,结合上层应用的自身特点,实现了网络IO的统一管理和调度。通过网络通信调度,HPC应用通信与IO相“重叠”,大幅降低了HPC应用的延迟。针对大数据读写,延迟降低超过30%;通过通信操作自身的调度和重叠,进一步提高了HPC应用的通信性能。本课题基于以上工作,对HPC应用面临的共享、隔离和安全问题进行了探讨,提出了合理有效的解决方案,有利于AI计算、大数据处理等HPC应用在数据中心与云计算场景下的高效运行。.本课题共发表学术论文8篇,其中国际学术期刊论文1篇、国际学术会议论文1篇、国内学术期刊论文2篇、国内学术会议论文4篇,包括SCI期刊KSII、集群领域国际会议Cluster、国内计算机领域专业期刊《计算机学报》《计算机研究与发展》以及国内高性能计算领域专业会议等。本课题共提交专利申请4份,涉及互连通信架构、虚拟网络优化、虚拟化远程SSD访问等与本课题紧密相关的技术领域。本课题共培养研究生7名,其中已毕业硕士6名,在读博士1名。
{{i.achievement_title}}
数据更新时间:2023-05-31
监管的非对称性、盈余管理模式选择与证监会执法效率?
跨社交网络用户对齐技术综述
黄河流域水资源利用时空演变特征及驱动要素
低轨卫星通信信道分配策略
城市轨道交通车站火灾情况下客流疏散能力评价
miR-5591靶向AGER/ROS/JNK抑制MSCs氧化应激损伤在糖尿病创面修复中的作用及机制
面向软件定义边缘计算的自驱动网络机制研究
面向云计算的软件定义安全关键技术研究
软件定义硬件中数据密集型应用的高性能映射技术研究
面向传感网的软件定义测量技术研究