The low-power neutral network processor is the active demand for the wearable and IoT device. Aiming at milliwatt level power consumption and real-time processing, this project focuses on two scientific issues, the contradiction between ultra-low power and real-time processing, and the contradiction between local approximate computing and global accuracy requirement of deep learning. This project will be stated based on IC design flow. (1) Design technique of device and circuit level. (2) Micro-architecture level design technique. (3) Architecture level design technique. (4) Optimization technique on model level. (5) Design and Implementation of prototype system. With utilization of near threshold, approximate computing and network sparsification, this work makes effort from multi-domain. The main idea is reducing power in circuit level and remedying the accuracy in model level, in order to break the restriction among power, efficient and accuracy. The main contributions of this work are as follows. (1) An approximate computing model theory for neural network. (2) A set of techniques for milliwatt level neural network processor design. (3) An FPGA-based deep learning neural network processing prototype. This work will provide intelligent engine for widely used wearable and IoT devices, and promote the development of related industries.
可穿戴、物联网设备对高能效低功耗神经网络处理器提出了迫切需求。本项目面向嵌入式深度神经网络处理器,以实现毫瓦级、实时深度神经网络推理为研发目标,针对“超低功耗和实时处理之间的矛盾”、“局部近似计算和整体神经网络输出精度之间的矛盾”两个关键科学问题,按照芯片设计流程自下而上分层开展:(1)器件和电路层设计技术;(2)微体系结构层设计技术;(3)体系结构层设计技术;(4)模型层优化技术等研究;并最终研制(5)芯片原型系统。本项目以近阈值、近似计算、稀疏化为关键技术手段,采用“硬件层尽力降低功耗,模型层弥补精度”等为主要思路,从不同层面和维度努力,以突破功耗、性能和精度三者之间的制约。主要成果包含:(1)形成面向神经网络处理器的近似计算模型理论;(2)一套神经网络处理器低功耗设计技术体系;(3)基于FPGA的实时深度神经网络处理器芯片原型。本研究将可穿戴与物联网智能计算提供芯片级技术支撑。
随着智能设备,机器人与自动驾驶等边缘计算系统的发展,如何采用较低的功耗代价发挥深度神经网络在图像,语音等多媒体数据识别与挖掘的能力,成为芯片领域的重要研究热点,尤其随着深度神经网络规模的不断增大,智能设备对于神经网络计算芯片的算力需求不断增加,因此面临着能量供应与散热等条件的严峻挑战,因此需要进一步研究如何降低神经网络的运行功耗。本课题从电路层,体系结构层,算法层多方面入手,采用跨层融合的思路研究全方位降低神经网络芯片功耗的关键技术。在项目执行过程当中,通过在器件和电路层,利用近阈值电路设计技术设计了专用二值逻辑计算单元用于低功耗低精度神经网络芯片设计,相比传统逻辑计算单元,能提高芯片能效比70%-150%;在神经网络架构优化层面,采用硬件感知的神经网络量化技术、高效稀疏加速结构以及高PE利用率映射等体系结构设计方法,针对特定数据集和网络模型,成功提升了神经网络芯片的计算能效2-3倍;在低功耗神经网络模型训练算法层,提出了同时考虑低比特与稀疏计算的神经网络模型训练方法,用于解决在近似计算优化过程中,可能会使得神经网络处理精度降低而达不到实际需要精度的问题,因此我们提出的训练方法在模型层部署误差感知模型误差累积,进行精度补偿,使得目标神经网络算法在微少损失精度情况下,达到20Tops/W的处理能效。研究成果从多层层次出发,探索并验证了如何采用相对落后的芯片工艺,系统性降低神经网络计算功耗的定制化方法,具有一定的应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
多源数据驱动CNN-GRU模型的公交客流量分类预测
采用深度学习的铣刀磨损状态预测模型
一种可穿戴指间角度测量系统设计
涡轮叶片厚壁带肋通道流动与传热性能的预测和优化
LncRNA RPL37AP1通过调控HNF4A/CEBPA/RPSA轴促使贲门腺癌侵袭迁移的新机制
嵌入式软件低功耗设计关键技术研究
面向共享Cache多核处理器的低功耗关键技术研究
面向物端应用的深度学习处理器自动设计技术
低功耗安全嵌入式处理器芯片的基础理论与关键技术