面向高精度计算领域动态可配置加速器体系结构研究

基本信息

批准号：61402499

项目类别：青年科学基金项目

资助金额：25.00

负责人：雷元武

学科分类：

依托单位：中国人民解放军国防科技大学

批准年份：2014

结题年份：2017

起止时间：2015-01-01 - 2017-12-31

项目状态：已结题

项目参与者：周杰,鲁建壮,倪时策,郭松,吕启,王岳青,李世杰

关键词：

动态可配置加速器增强型体系结构高精度计算并行计算

结项摘要

With the development of semiconductor technology, the number of transistors on processor chip is increased and power consumption becomes the major bottleneck of chip performance. The way to customize accelerator for computing-intensive applications is used efficiently to ensure the chip performance trend with Moore’s law, improve the computational efficiency, and alleviate the problem of power consumption. However, beside of high performance, the demand for calculation accuracy is increased with the expansion of the scale in future scientific and engineering computing. It is required to provide effective hardware support for high-precision arithmetic.. In this project, we present an array accelerator architecture for high-precision application according to the development trend of processor and the demand of computation accuracy. Several schemes are proposed to balance performance, efficiency and scalability of this accelerator. First, a programmable unified hardware based-on VLIW structure is presented to implement varies of high-precision basic operations, elementary functions, and coarser-grain functions. Second, the accelerator architecture and memory structure are presented, which uses the latency tolerance scheme to accelerate the kernel programs featured with loop and uses the pipeline fold scheme to accelerate irregular kernel programs. Third, adaptive DMA engine architecture is presented to support multiple access modes to improve the utilization of data bandwidth. Final, reconfigurable array architecture is presented to implement data parallel with SPMD and functional pipeline with Systolic array. This project will provide several key techniques to increase the performance and accuracy for the next generation of supercomputers.

随着半导体技术的发展，芯片晶体管数量持续增加，功耗成为限制处理器性能提升的主要瓶颈。面向计算密集型应用领域定制加速器是保证芯片性能延续摩尔定律的发展趋势、提高芯片计算效率、缓解功耗问题的一种有效方法。然而，除了计算性能外，大规模科学和工程计算对处理器的计算精度也提出更高要求，迫切需要对高精度算术提供有效的硬件支持。. 课题结合处理器的发展趋势和计算精度需求，研究面向高精度计算阵列加速体系结构在性能、效率和扩展性方面所面临的挑战，研究基于VLIW可编程统一高精度基本功能计算引擎架构、支持延时容忍的可配置循环类加速策略和流水线折叠的可编程非规则类加速策略的计算加速核结构和存储架构、支持多种访存模式的自适应配置DMA数据引擎架构、支持SPMD数据并行模式和Systolic阵列功能流水并行模式的可配置多核阵列体系结构等关键技术，为下一代高效能计算机提供有力的计算能力和计算精度支持。

项目摘要

随着半导体技术的发展，功耗成为限制处理器性能提升的主要瓶颈。面向计算密集型应用领域定制加速器是提高芯片计算效率、缓解功耗问题的一种有效方法。同时，除了计算性能外，大规模科学和工程计算对处理器的计算精度也提出更高要求，迫切需要对高精度算术提供有效的硬件支持。. 课题结合处理器的发展趋势和计算精度需求，研究面向高精度计算阵列加速体系结构在性能、效率和扩展性方面所面临的挑战。研究了基于VLIW可编程统一高精度基本功能计算引擎架构，提出了统一低误差浮点TCORDIC算法，实现多种高精度基本函数和基本“宏”操作的计算；提出基于FIFO的延时容忍的可配置循环类加速策略和基于谓词执行的分支和循环优化策略的可编程非规则类加速策略；针对数据矩阵存储和矩阵行列交替访问进一步降低存储带宽利用率问题，提出基于基本块的矩阵转置算法，利用加速器内部存储器的实现DMA突发连续访问和基于“乒乓”方式的读写重叠策略，提高DDR存储带宽的利用率,获得73.6%的存储带宽利用率提升；基于上述策略，提出基于Systolic阵列功能流水并行模式的矩阵运算加速器和基于SPMD数据并行模式的可变精度FFT加速器，取得2个数量级的能效提升。. 本课题在加速器设计中的计算引擎、存储架构、访存模式和多核阵列中的并行模式等方面均取得了大量创新性研究成果，为面向领域的加速器设计与实现奠定坚实的理论和技术基础，具有重要的理论意义和应用价值。本课题全面完成了研究计划。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.17521/cjpe.2019.0351

发表时间：2020

DOI：10.12068/j.issn.1005-3026.2019.06.009

发表时间：2019

DOI：10.11834/jrs.20209060

发表时间：2020

DOI：10.16285/j.rsm.2020.0744

发表时间：2021

DOI：

发表时间：2020

雷元武的其他基金

相似国自然基金

加速神经网络计算的可重构动态多核体系结构研究

批准号：61701149

批准年份：2017

负责人：刘炳涛

学科分类：F0113

资助金额：30.00

项目类别：青年科学基金项目

可重构计算中控制配置研究

批准号：60273088

批准年份：2002

负责人：樊晓桠

学科分类：F0204

资助金额：20.00

项目类别：面上项目

面向云计算多媒体应用的体系结构研究

批准号：61370081

批准年份：2013

负责人：张为华

学科分类：F0204

资助金额：76.00

项目类别：面上项目

面向流计算的高能效NoC体系结构研究

批准号：61802312

批准年份：2018

负责人：王继禾

学科分类：F0204

资助金额：27.00

项目类别：青年科学基金项目

面向高精度计算领域动态可配置加速器体系结构研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

涡度相关技术及其在陆地生态系统通量研究中的应用

低轨卫星通信信道分配策略

内点最大化与冗余点控制的小型无人机遥感图像配准

滴状流条件下非饱和交叉裂隙分流机制研究

瞬态波位移场计算方法在相控阵声场模拟中的实验验证

雷元武的其他基金

相似国自然基金