面向深度学习处理器的可靠性分析与优化技术研究

基本信息

批准号：61802143

项目类别：青年科学基金项目

资助金额：26.00

负责人：谭婧炜佳

学科分类：

依托单位：吉林大学

批准年份：2018

结题年份：2021

起止时间：2019-01-01 - 2021-12-31

项目状态：已结题

项目参与者：高尚,徐海啸,董飒,岳恒山,李梓健,汤钫宇

关键词：

可靠性分析高性能计算深度学习处理器可靠性优化软硬结合可靠性

结项摘要

Recently, deep learning processors emerge as major computing platforms for deep learning applications. However, inadequate reliability features of current deep learning processors prevent their prevalence in self-driving cars, surgery robots, and so on. Unfortunately, as integrated circuit manufacturing process scales down, hardware error rate increases exponentially, which becomes a great challenge for reliable deep learning processing. Besides reducing error rate, error detection and recovery are also the key to improve the reliability of deep learning processors. In this proposal, we focus on the analysis and optimization regarding to the reliability of deep learning processors. The goal is to improve the reliability of deep learning processors without significant performance and energy loss. We model and analyze the reliability features of deep learning processor architectures in a quantitative approach, characterize the reliability requirements of deep learning algorithms, improve the reliability of deep learning processors via hardware protections, and optimize the reliability of deep learning processors through energy-efficient error detection and recovery mechanisms. This work will benefit the application of deep learning processors in emerging fields such as self-driving cars and surgery robots.

深度学习处理器正在崛起成为深度学习的重要处理平台，然而目前其设计尚缺乏对可靠性的保障，这也限制了深度学习的更广泛应用。随着制造工艺的微型化，硬件执行时发生错误的概率呈指数级增长，这成为了深度学习处理器可靠性的提升所面临的重要挑战。降低硬件执行错误的发生率，并实现错误的检测与恢复，是保障深度学习处理器可靠性的关键。本课题拟从分析和优化两个方面对深度学习处理器可靠性进行研究，兼顾性能及功耗，达到以低代价的方式提高深度学习处理器可靠性的研究目标。课题主要内容包括：建立深度学习处理器体系结构可靠性量化模型并分析可靠性特征；分析深度学习应用算法并提取其可靠性需求；研究低开销的硬件保护方法以提高深度学习处理器可靠性；基于高能效的错误检测及错误恢复设计优化深度学习处理器的可靠性。这一研究有助于提高深度学习处理器在自动驾驶、手术机器人等新兴领域的应用前景。

项目摘要

近年来，深度学习技术发展迅速，目前能够达到超越人类的准确率，并被广泛应用于图像识别、目标检测、语音识别、自然语言翻译、以及文本分类等领域。作为常用的深度学习处理器，卷积神经网络加速器及GPU被广泛应用于深度学习算法程序的处理。随着制造工艺的微型化，硬件执行时发生错误的概率呈指数级增长，这成为了深度学习应用正确执行所面临的重要挑战。分析并优化深度学习处理器的可靠性，对提高深度学习处理器在自动驾驶、手术机器人等新兴领域的应用前景具有重要意义。本课题针对卷积神经网络加速器和GPU两种处理器类型，从硬件变异性和软错误等影响可靠性的因素进行了多维度的分析，并通过优化设计实现了低开销的可靠性的提升。具体研究内容包括：1）卷积神经网络加速器的制程变异影响分析及缓解；2）卷积神经网络算法和加速器体系结构的软错误可靠性分析及提升；3）GPU程序及体系结构的软错误可靠性分析、预测及优化；4）GPU体系结构的硬件变异性影响分析及缓解；5）高能效的GPU及微型航空飞行器设计。研究内容共发表论文14篇，申请发明专利7项，授权发明专利3项；参加国际会议8次；培养博士研究生1名，硕士研究生4名。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：

发表时间：2021

DOI：10.1360/SSM-2020-0035

发表时间：2020

DOI：10.7498/aps.68.20181682

发表时间：2019

谭婧炜佳的其他基金

相似国自然基金

面向物端应用的深度学习处理器自动设计技术

批准号：61876173

批准年份：2018

负责人：李华伟

学科分类：F0608

资助金额：62.00

项目类别：面上项目

面向视觉质量优化的深度学习视频编码

批准号：61772483

批准年份：2017

负责人：刘东

学科分类：F0210

资助金额：62.00

项目类别：面上项目

深度学习处理器体系结构

批准号：61732002

批准年份：2017

负责人：钱德沛

学科分类：F0204

资助金额：305.00

项目类别：重点项目

面向深度学习应用的边缘计算执行框架与优化机制研究

批准号：61872079

批准年份：2018

负责人：东方

学科分类：F0207

资助金额：64.00

项目类别：面上项目

面向深度学习处理器的可靠性分析与优化技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

一种基于多层设计空间缩减策略的近似高维优化方法

智能煤矿建设路线与工程实践

药食兼用真菌蛹虫草的液体发酵培养条件优化

现代优化理论与应用

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

谭婧炜佳的其他基金

相似国自然基金