General purpose graphics processor(GPGPU) has an increasing application in the field of high performance computing based on its parallel computing capability, which makes it become one of the main stream computing speedup components, especially in the field of general-purpose computing feild oriented throughput. However, the performance of GPGPU fails to reach the maximum when some irregular applications run on GPGPU as there exist some factors affecting the performance of GPGPU such as branch divergence, memory divergence and on-chip resources contention, etc. We will study these factors affecting the performance of GPGPU, especially branch divergence, memory divergence and on-chip resources contention based on thread scheduling and microarchitecture of GPGPU. Moreover, we will construct the overall performance optimization framework based on thread scheduling. The performance of GPGPU will be optimized via solving the issues including the reduction of on-chip resources utilization occurred by branch divergence and the drop of memory efficiency occurred by memory divergence and on-chip resources contention.
通用图形处理器(GPGPU)在并行计算方面的巨大优势使其在高性能计算领域的应用日趋广泛,尤其是在面向高吞吐量的通用计算计算领域已经成为了主流的计算加速部件。然而,由于分支转移、访存离散和片上资源访问竞争等因素的存在,当GPGPU处理不规则应用程序时,其性能并未能得以充分发挥。本课题将从线程调度优化的角度出发,基于对GPGPU微体系结构的分析,构建基于线程调度的GPGPU性能优化整体框架,对分支转移、访存离散和片上资源访问竞争等三个影响GPGPU性能的主要因素进行研究,重点解决由于分支转移引起的资源利用率降低、访存离散和片上资源访问竞争导致的访存效率降低等方面的问题。
通用图形处理器(GPGPU)是当前面向高吞吐量、高性能计算领域的主要加速部件之一,它在通用计算领域也得到了广泛的应用。然而,通用计算领域存在大量不规则计算模型和不规则访存模型,而且由于超大规模线程的并发执行,片上资源尤其是存储资源很容易出现访问竞争。这些原因均会不同程度的影响GPGPU的性能发挥。.本课题从GPGPU的微体系结构出发,通过对线程调度方法的优化,解决分支转移引起的资源利用率下降、片上资源访问竞争和访存离散导致cache访问效率下降等问题,以此来提升GPGPU的性能。另外,存储墙问题尤其是片上缓存子系统的性能问题是制约GPGPU性能的主要因素之一,课题组还针对缓存子系统优化进行了研究。.(1)课题组从GPGPU的微体系结构出发,综合考虑分支转移、片上资源访问竞争、访存离散等多个因素,构建一个完整的提升GPGPU性能的线程调度优化框架。.(2)面向分支转移,提出了一种基于两阶段同步的线程块压缩调度机制,分两个阶段来对线程块进行压缩重组,在每个阶段均对线程块的压缩重组有效性进行分析,并考虑线程块重组产生的开销和收益之间的关系,使得线程块压缩重组的有效性得到了较大的提升。.(3)面向片上资源尤其是cache资源访问竞争,提出了基于访存感知的TLP调节结合cache绕行机制。通过窗口滑动机制检测是否出现cache访问竞争,并结合cache绕行机制,提升了数据局部性,也提高了片上网络资源带宽,有效地解决了片上cache访问竞争问题。.(4)面向访存离散,提出了基于访存优先级的线程调度机制。首次真正意义上对访存的优先级进行了量化计算,并优先选择优先级最大的访存请求发射,提升了访存离散条件下的性能,也降低了片上的资源访问竞争,同时还保证了线程调度的公平性。.(5)研究了非易失性缓存子系统优化方法,提出了一种SRAM辅助新型非易失性缓存的磨损均衡方法。该方法使非易失性缓存的写操作分布更加均匀,达到了更好的磨损均衡效果,缓存的寿命得到较大幅度的提升,同时有效降低了系统功耗。
{{i.achievement_title}}
数据更新时间:2023-05-31
监管的非对称性、盈余管理模式选择与证监会执法效率?
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
黄河流域水资源利用时空演变特征及驱动要素
特斯拉涡轮机运行性能研究综述
栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究
基于图形处理器的高性能计算
多线程条件下众核处理器的访存优化方法研究
基于单片多处理器的指令级多线程研究
基于通用多核处理器平台的业务流并行测量方法研究