Many-core architecture has become the new development trend of processor architecture,Its multi-granularity parallelism,complicated memory hierarchy, and limited memory access bandwidth, etc., poses great challenges on the performance tuning and portability of parallel algorithm. FFT, dense linear algebra subroutine and OpenCV libraries are three very different and classic kernel function libraries. How to improve the running efficiency and development efficiency of these three kinds of libraries on many-core architecture becomes a more and more urgent problem. We plan to carry out researches on the performance portability and high productivity of these three kinds of classic algorithms on many-core architecture. Our major researches including 1) research on a new many-core parallel computational model characterizing with the complex computing hierarchy and memory hierarchy that can provide theoretical analysis results for parallel algorithm design. 2) research on a new parallel programming framework prototype based on splitted computation pattern and memory access pattern directives.Through exhausted validating on the optimization methods chain and our new proposed computational model, we will study on the most powerful methods and used these results to establish a suit of computation pattern directives and memory access pattern directives to build up this new parallel programming framework prototype. 3)research on a new algorithm self-adaptive performance tuning framework prototype. This research will extend the platform self-adaptivity to both platform and algorithm self-adaptivity, thus further improve the applicability and flexibility of self-adapting performance tuning.
众核架构已成为处理器体系结构发展新趋势,其多粒度并行性、复杂存储层次和有限存储带宽等都对并行算法的性能调优及性能可移植提出巨大挑战。FFT、稠密矩阵计算和OpenCV是三类不同的典型应用核心算法库,如何有效提高三类算法在众核上的运行和开发效率成为一个迫切需要解决的问题。本项目拟针对三类典型核心算法在众核上的性能可移植和高效实现开展研究,主要研究内容包括:1)新的众核并行计算模型研究。对众核架构的多粒度计算和多层次存储等关键特性进行建模,用以指导众核并行算法设计和分析;2)基于计算与访存模式分离指导语句的并行编程框架研究。利用并行计算模型和基于手工调优形成的优化方法链进行双向验证,提出一套基于计算和访存模式分离的制导语句的并行程序设计框架;3)算法自适应性能调优框架原型研究。将调优框架从过去的仅仅是平台自适应,扩展为平台自适应和算法自适应两个维度,进一步提升自适应优化的适用范围和灵活性。
课题组在基金委面上基金支持下,面向众核架构的多粒度并行性、复杂存储层次和有限存储带宽的新特性,以FFT、稠密矩阵计算和OpenCV三类不同的典型应用核心算法为研究对象,研究提出了一系列并行计算模型、并行优化算法和自适应调优方法应对其在性能调优及性能可移植方面的巨大挑战。项目执行期间,课题组共发表CCF A类论文4篇,CCF B类论文2篇,SCI论文6篇,其他论文29篇,完成并行计算模型专著一本,授权发明专利2项,申请发明专利1项。指导毕业博士/硕士研究生十余人,指导来自澳洲国立大学的博士后一人,课题组成员三人次前往美国学习交流一年。项目成果如下:.1.提出一个新的面向大数据的并行计算模型p-DOT。在普遍性方面,任何可以用DOT模型或BSP模型表示的大数据处理范式都可以用p-DOT模型表示;在通用性方面,p-DOT模型通过考虑I/O磁盘开销对大数据任务进行性能成本评估,并认为对一个固定的算法和负载环境,任务所需的最优机器数目与输入规模的开方成正比。具有较高的通用性和正确性。提出一种局部性变换理论CTL,可以指导程序局部性评价和优化设计。.2.提出了一个面向图像和无线通信领域、基于并行优化模式的高性能OpenCL编程框架ParaCV。该框架主要包含两部分:高层语言和并行优化框架。其中高层语言方便程序员述众核上并行算法的计算和访存模式,降低程序员的编程负担;并行优化框架将高层语言程序源源变换为针对特定硬件平台的高性能OpenCL程序,实现高性能的通用性和可移植性。.3.提出了若干面向FFT、稠密矩阵计算和 OpenCV 库等三类典型应用核心算法 的众核自适应性能调优框架,研制了相应的自适应软件包,其中OpenBLAS和YaSpMV软件包均为目前国际最快算法之一。OpenBLAS项目网站www.openblas.net,已发布了30个版本,支持主流的Intel和AMD处理器,国产龙芯3处理器,ARM处理器,Power处理器等,已经与国际知名的ATLAS一起成为BLAS两大主要开源实现,且性能优于ATLAS,与Intel的商业数学库MKL成为目前X86处理器上用户使用最多的两个数学库。于2016年获得CCF科学技术二等奖。.总之,项目组在项目运行周期间按照项目年度计划、项目人员安排、国际交流合作等方案开展,按项目进度时间安排进行相应的研究工作并按时顺利完成了预期研究成果。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
内点最大化与冗余点控制的小型无人机遥感图像配准
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
城市轨道交通车站火灾情况下客流疏散能力评价
面向高性能异构众核架构的大规模CFD并行算法与应用
面向异构众核架构的量子力学精度蛋白质分子动力学模拟大规模并行计算方法
基于众核架构的地震波场延拓方法
面向异构众核系统的统一编程框架研究