In the recent years, in-memory computing systems (such as Spark) significantly improve the performance of big data processing through software efforts. However, hardware support is possible to further improve the speed of in-memory computing by an order of magnitude. Hence, this project manages to investigate a data-oriented elastic computer architecture for big data in-memory computing, which can effectively adapts to the processing style and placing method of data, so as to improve the speed and energy efficiency of in-memory computing. Concretely, the data-oriented elastic computer architecture integrates a number of novel techniques, e.g., elastic accelerators, uniform access architecture of heterogeneous storage mediums, and key-value pair communication. Together with dedicated programming and management, the data-oriented elastic computer architecture can effectively cope with the features of in-memory computing, including limited single-node storage, stringent computation time budget, and frequent communication. Through a systematic investigation on the computation, storage, communication, programming and management of in-memory computing, the output of this project will include a reference overall architecture of multi-node in-memory computing system, a prototype chip of elastic accelerator and a programming environment, which can be referenced by the community.
近年来,以Spark为代表的内存计算系统通过软件层面上的革新显著提升了大数据处理的性能。然而,硬件层面的支持完全有可能进一步带来内存计算速度的显著提升。因此,本项目拟提出一种数据驱动的可塑内存计算架构,根据数据的计算模式和放置方式,重塑计算机体系结构与系统软件,数量级地提升大数据内存计算性能和执行效率。数据驱动的可塑内存计算架构在计算上的创新集中体现为可重塑加速器结构,在存储上的创新集中体现为异质存储统一访问架构,在通信上的创新集中体现为键值对通信方法。辅以专门的系统编程和平台管理方法,数据驱动的可塑架构能有效应对内存计算单节点数据量小、计算实时性高、通信频繁的特点,因而能充分发挥内存计算的性能优势。最终,本项目将通过计算、存储、通信、编程和管理等五个方面的一体化、贯通式的研究,形成一套大数据内存计算的多节点参考体系结构方案、加速器原理性样片和编程环境,为国内外同行提供借鉴。
以Spark为代表的内存计算系统通过软件层面上的革新显著提升了大数据处理的性能,而硬件层面的支持完全有可能进一步带来内存计算速度的显著提升。大数据内存计算存在的单节点存储容量小、计算实时性高、通信频繁等问题,往往会阻碍内存计算性能的充分发挥,这些问题的解决需要计算机体系结构的创新。鉴于大数据的多样性,无法针对每类不同数据(应用、场景)一一定制硬件体系结构。因此,本项目探索了一种新型的数据驱动的可塑内存计算架构,根据数据的计算模式和放置方式,重塑计算机体系结构与系统软件,数量级地提升大数据内存计算性能和执行效率。. 项目组针对现有的代表性深度学习算法进行分析,建立了共性算子运算器的复用计算子范式,并把复用计算方法拓展至机器学习算法。基于共性特征自动化分析方法,项目组提出了国际首个神经网络通用指令集架构Cambricon,在此基础上设计了面向非精确稀疏神经网络的加速器 Cambricon-X与Cambricon-S,不仅支持原始的稠密神经网络,而且也能更快的执行稀疏的神经网络。在通信方面提出了键值对通信的执行模型DPTA并设计了键值对数据通信规范KV-MPI,提高数据计算应用的运行效率,并兼具编程简洁性和易用性。. 以天文学这一大数据驱动科学为典型应用,项目组提出了基于天文大数据的实时处理框架,设计并实现全时态天文大数据管理系统AstroServ,能够对科学数据流和离线数据进行统一管理和分析,目前已应用于国家天文台GWAC望远镜并支持其科学发现,并顺利通过了科技部中科合创科技成果评价中心的成果鉴定,以中国工程院院士李伯虎为组长的专家组表示,该系统研发难度高、交叉创新性强、工作量大,总体上达到国际先进水平。. 本项目形成了70篇论文、14项发明专利及6项软件著作权,其中包括32篇CCF A类期刊/会议论文和9篇IEEE/ACM Transactions 论文。项目还培养了研究生36名,其中博士11名,硕士25名。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
低轨卫星通信信道分配策略
圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
面向生物信息处理的计算机体系结构
支持面向对象处理的计算机体系结构研究
面向持久内存的图数据存储方法优化技术
基于内存计算的遥感数据高效并行和任务调度研究