The rapid progress of deep neural networks (DNNs) has made remarkable success in large scale intelligence information processing. However, the efficiency of DNN algorithms running on general computing platforms is quite low due to the continuous increasing of data scale, which is difficult to satisfy the requirements of low power and high performance in different scenarios. In this project, we will explore the potential sparsity for DNN algorithms to optimize the memory access performance in heterogeneous computing platforms and shrink the memory wall gap. First, we will explore the sparsification and optimization of DNN models by considering both network connections and activations of neurons, which will result in a DNN sparsifying method that is closely and related to and optimized for the hardware implementations. Then, we will regularize the memory access patterns of the sparse DNN models by clustering sparse date to dense local memory to reduce the memory bandwidth requirement in FPGA platform. Finally, we will investigate the sparsity-aware thread block compactor that can dynamically form thread warps of memory access reduction in GPU systems specifically.
基于神经网络的深度学习技术在大数据智能信息处理领域中占有至关重要的地位。然而,随着数据规模的急剧增长,基于通用处理器的计算机系统上运行大规模深度学习算法的效率较低,难以满足不同场景下各种应用在功耗和性能等方面的需求。本项目基于深度神经网络的稀疏化特征,重点研究其在异构计算系统上的高效能访存优化方法,以缓解所面临的内存瓶颈问题。首先,利用深度神经网络模型拓扑连接和特征映射的稀疏性,探究针对异构硬件优化实现的网络模型稀疏化原理,探索基于硬件约束的稀疏化网络模型学习机制;然后,采用划分和聚类的方法将稀疏化模型参数形成局部稠密块,从而降低数据存储访问时带宽限制的影响;最后,通过监测模型特征映射的稀疏性,动态调整任务调度及线程压缩,进一步提高数据访存效率,优化整个系统的性能。充分挖掘深度神经网络稀疏化特征,面向异构硬件提升系统访存效率,对深度学习加速器研究领域具有重要的科学意义。
模型稀疏化是深度学习应用的重要手段,本项目聚焦于通过对稀疏数据访存效率进行优化来提高稀疏神经网络在专用计算架构上的运行效率。本项目针对深度神经网络在异构计算系统中的访存优化问题进行深入研究,基于传统计算平台以及新型计算平台,从数据重用、访存优化、数据流优化以及动态稀疏化等多个层面,提出稀疏神经网络计算的性能与效率优化方法,并探索未来新型架构可能的潜在应用,尤其是引入新型存储器以及存内计算架构等前沿技术。针对深度神经网络异构计算的访存问题,提出一种专门针对稀疏神经网络计算的脉动阵列架构,完成了从网络稀疏化、架构设计到数据流映射等优化工作,围绕稀疏这一特性通过算法-架构-编译协同设计的过程,解决并优化了异构系统设计存在的一系列访存瓶颈问题,显著提升了处理大规模稀疏神经网络计算任务的效率。此外,研究团队还对新型存储器在存内计算架构领域的潜在应用、面向访存优化的流式计算架构、针对贝叶斯神经网络的算子优化、基于反向传播的梯度动态稀疏化的深度神经网络训练加速技术等具有广阔应用前景的领域展开了相关研究。本项目共发表14篇论文,其中SCI期刊论文6篇(TCAD/TNNLS等),国际顶级会议论文8篇(DAC/ICCAD/ASPDAC等)。发表会议论文中有1篇获得IEEE ICESS会议最佳论文奖。申请与本项目相关的技术发明专利10项,其中2项为北航与腾讯共同申请,将作为技术成果转移给腾讯公司。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
拥堵路网交通流均衡分配模型
卫生系统韧性研究概况及其展望
多核平台上的动态访存优化
多线程条件下众核处理器的访存优化方法研究
大容量固态硬盘地址映射表优化设计与访存优化研究
GPU程序访存行为分析和优化关键技术研究