Recently, deep learning processors emerge as major computing platforms for deep learning applications. However, inadequate reliability features of current deep learning processors prevent their prevalence in self-driving cars, surgery robots, and so on. Unfortunately, as integrated circuit manufacturing process scales down, hardware error rate increases exponentially, which becomes a great challenge for reliable deep learning processing. Besides reducing error rate, error detection and recovery are also the key to improve the reliability of deep learning processors. In this proposal, we focus on the analysis and optimization regarding to the reliability of deep learning processors. The goal is to improve the reliability of deep learning processors without significant performance and energy loss. We model and analyze the reliability features of deep learning processor architectures in a quantitative approach, characterize the reliability requirements of deep learning algorithms, improve the reliability of deep learning processors via hardware protections, and optimize the reliability of deep learning processors through energy-efficient error detection and recovery mechanisms. This work will benefit the application of deep learning processors in emerging fields such as self-driving cars and surgery robots.
深度学习处理器正在崛起成为深度学习的重要处理平台,然而目前其设计尚缺乏对可靠性的保障,这也限制了深度学习的更广泛应用。随着制造工艺的微型化,硬件执行时发生错误的概率呈指数级增长,这成为了深度学习处理器可靠性的提升所面临的重要挑战。降低硬件执行错误的发生率,并实现错误的检测与恢复,是保障深度学习处理器可靠性的关键。本课题拟从分析和优化两个方面对深度学习处理器可靠性进行研究,兼顾性能及功耗,达到以低代价的方式提高深度学习处理器可靠性的研究目标。课题主要内容包括:建立深度学习处理器体系结构可靠性量化模型并分析可靠性特征;分析深度学习应用算法并提取其可靠性需求;研究低开销的硬件保护方法以提高深度学习处理器可靠性;基于高能效的错误检测及错误恢复设计优化深度学习处理器的可靠性。这一研究有助于提高深度学习处理器在自动驾驶、手术机器人等新兴领域的应用前景。
近年来,深度学习技术发展迅速,目前能够达到超越人类的准确率,并被广泛应用于图像识别、目标检测、语音识别、自然语言翻译、以及文本分类等领域。作为常用的深度学习处理器,卷积神经网络加速器及GPU被广泛应用于深度学习算法程序的处理。随着制造工艺的微型化,硬件执行时发生错误的概率呈指数级增长,这成为了深度学习应用正确执行所面临的重要挑战。分析并优化深度学习处理器的可靠性,对提高深度学习处理器在自动驾驶、手术机器人等新兴领域的应用前景具有重要意义。本课题针对卷积神经网络加速器和GPU两种处理器类型,从硬件变异性和软错误等影响可靠性的因素进行了多维度的分析,并通过优化设计实现了低开销的可靠性的提升。具体研究内容包括:1)卷积神经网络加速器的制程变异影响分析及缓解;2)卷积神经网络算法和加速器体系结构的软错误可靠性分析及提升;3)GPU程序及体系结构的软错误可靠性分析、预测及优化;4)GPU体系结构的硬件变异性影响分析及缓解;5)高能效的GPU及微型航空飞行器设计。研究内容共发表论文14篇,申请发明专利7项,授权发明专利3项;参加国际会议8次;培养博士研究生1名,硕士研究生4名。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
基于混合优化方法的大口径主镜设计
面向工件表面缺陷的无监督域适应方法
面向物端应用的深度学习处理器自动设计技术
面向视觉质量优化的深度学习视频编码
深度学习处理器体系结构
面向深度学习应用的边缘计算执行框架与优化机制研究