高性能异构计算环境中的深度学习迭代优化及工业应用研究

基本信息
批准号:61873090
项目类别:面上项目
资助金额:66.00
负责人:唐卓
学科分类:
依托单位:湖南大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:范年柏,全哲,付仲明,张学东,余耀,何梦思,周文,吕葳,肖伟
关键词:
智能制造深度学习增量迭代分布式系统异构系统
结项摘要

The big data intelligence technology with deep learning as the core is gradually becoming a breakthrough point of intelligent manufacturing in Industry 4.0. Data collection request for millisecond level in industry, the real-time response of the massive IOT sensor has brought challenges to the deep learning model training. This project aims at the typical industrial intelligent applications such as equipment fault diagnosis and instruction optimization. By deeply analyzing the actual characteristics of equipment data such as CNC machine tools, this project is based on multiple heterogeneous architectures such as CPU / GPU heterogeneous architecture and distributed Spark / Flink framework System level to solve the model training efficiency optimization problem.First of all, by means of experimental observation, the preconditions and methods of incremental iterative optimization in industrial data training will be proposed to reduce the number of iterations. Secondly, based on the heterogeneous architecture of GPU / CPU, we will study the storage and management of intermediate shared results in GPU memory and Cache in the iterative process. By Spark RDD and other data structures in the GPU environment and the expansion of the architecture to achieve iterative data in distributed heterogeneous computing environment cache and persistence. Finally, aiming at the actual application requirements in intelligent manufacturing, a prototype system suitable for massively high-level industrial data stream processing and efficient training of the model will be implemented, and the comprehensive performance evaluation and testing of the project's theory and prototype will be realized based on the supercomputer of the National Supercomputer Center on Changsha.

以深度学习为核心的大数据智能技术正逐步成为工业4.0中智能制造的突破口。工业领域毫秒级数据采集请求,海量物联网传感器实时响应给深度学习模型训练带来了挑战。本项目拟针对设备故障诊断、指令优化等典型应用,通过深入分析数控机床等设备数据的实际特征,从GPU/CPU体系结构、分布式Spark/Flink框架中等多个异构系统层面来解决模型训练的效率问题。首先通过实验观测手段,提出工业数据训练过程中增量迭代优化的前提条件和方法,减少迭代次数。其次将基于处理器异构体系结构,研究迭代过程中中间共享结果在GPU内存及缓存中的存储和管理。通过Spark RDD数据结构等在GPU环境中的扩展,实现迭代数据在分布式异构环境下的缓存和持久化。最后将针对实际应用需求,实现适用于海量高并发的工业数据流处理与模型高效训练的原型系统,并基于国家超算长沙中心的超级计算机对本项目的理论和原型进行全面的性能评估与测试。

项目摘要

以深度学习为核心的大数据智能技术正逐步成为工业4.0中智能制造的突破口。工业领域毫秒级数据采集请求,海量物联网传感器实时响应给深度学习模型训练带来了挑战。本项目针对设备故障诊断、指令优化等典型应用,通过深入分析数控机床等设备数据的实际特征,从GPU/CPU体系结构、分布式Spark框架中等多个异构系统层面来解决模型训练的效率问题。首先通过实验观测手段,提出了工业数据训练过程中增量迭代优化的前提条件和方法,减少迭代次数。其次基于处理器异构体系结构,研究了迭代过程中中间共享结果在GPU内存及缓存中的存储和管理。通过Spark RDD数据结构等在GPU环境中的扩展,实现迭代数据在分布式异构环境下的缓存和持久化。最后针对实际应用需求,实现适用于海量高并发的工业数据流处理与模型高效训练的原型系统,并基于国家超算长沙中心的超级计算机对本项目的理论和原型进行全面的性能评估与测试。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
3

卫生系统韧性研究概况及其展望

卫生系统韧性研究概况及其展望

DOI:10.16506/j.1009-6639.2018.11.016
发表时间:2018
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

面向云工作流安全的任务调度方法

面向云工作流安全的任务调度方法

DOI:10.7544/issn1000-1239.2018.20170425
发表时间:2018

唐卓的其他基金

批准号:21572222
批准年份:2015
资助金额:65.00
项目类别:面上项目
批准号:61572176
批准年份:2015
资助金额:65.00
项目类别:面上项目
批准号:61103047
批准年份:2011
资助金额:23.00
项目类别:青年科学基金项目
批准号:21172215
批准年份:2011
资助金额:60.00
项目类别:面上项目
批准号:21877108
批准年份:2018
资助金额:67.50
项目类别:面上项目

相似国自然基金

1

网络环境下的迭代学习控制及应用研究

批准号:61203065
批准年份:2012
负责人:卜旭辉
学科分类:F0301
资助金额:25.00
项目类别:青年科学基金项目
2

大工业过程的迭代学习控制研究

批准号:60274055
批准年份:2002
负责人:阮小娥
学科分类:F0301
资助金额:5.00
项目类别:面上项目
3

重复环境中柔性康复机器人迭代互学习优化控制研究

批准号:51705381
批准年份:2017
负责人:孟伟
学科分类:E0501
资助金额:24.00
项目类别:青年科学基金项目
4

基于深度学习的宽带MIMO AMP迭代检测译码

批准号:61801523
批准年份:2018
负责人:杨杨
学科分类:F0105
资助金额:20.00
项目类别:青年科学基金项目