复杂动态系统数据驱动的强化学习控制研究

基本信息
批准号:61573052
项目类别:面上项目
资助金额:65.00
负责人:李大字
学科分类:
依托单位:北京化工大学
批准年份:2015
结题年份:2019
起止时间:2016-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:周靖林,陈海胜,马昕,宋天恒,曹建辉,李论通,谢倩雯,丁攀,李憧
关键词:
数据驱动策略评价算法强化学习控制自适应动态规划控制器性能监测
结项摘要

With the rigorous development of the modern process industry, the process dynamics and system complexity have been drastically increased, which imposes great challenges in development of precise modeling and model-based control approaches. Efficient strategy for effectively managing big data and integrating it into the data-driven control and optimization of the process is a key issue to be dealt with in the process control field. Dynamic programming based data-driven reinforcement learning control of the complex dynamical system using historical data and on-line data motivates the research in this project. How to establish the corresponding control scheme is considered, and four key aspects are investigated, which include: 1)Research on on-line policy evaluation theory; 2) Research on system sparsification and regularization method in policy evaluation; 3) Research on computational complexity and parameter sensitivity of algorithm; 4) Research on performance monitoring of data-driven reinforcement learning control. Finally, the research on the construction of the data-driven on-line reinforcement learning control and its realization in process plant are explored. The proposed system scheme can be easily integrated with existing control methods and contribute to the effective complementary solution for complex dynamical system which is difficult to model. The proposed approaches for these problems can not only contribute to the development of the data-driven reinforcement learning control theory for complex dynamical system, but also provide an effective solution for the process control in chemical industry.

现代流程工业的过程动态特性和系统复杂性日益增强,给基于模型的控制方法带来困难。如何有效利用设备积累的海量数据,实现数据驱动的优化控制是目前过程控制领域亟待解决的问题。本项目的目标是基于动态规划理论,研究有效利用过程历史数据和在线数据,开发可用于复杂动态系统的数据驱动的强化学习控制方法,建立相应的控制系统框架,并围绕影响其应用的四个关键问题展开研究,具体包括:1)在线策略评价算法研究;2)策略评价中的系统稀疏化和正则化方法的研究;3)算法复杂度和参数灵敏度研究;4)ADP控制器性器能监测方法研究。最后,据此构建数据驱动的在线强化学习控制框架并进行应用研究。所给出的系统框架可以灵活地与现有方法结合,为难以精确建模的复杂动态系统控制问题提供补充的解决方案。这些问题的解决,不仅可为数据驱动的强化学习控制应用提供理论支持,也为化工领域过程控制提供新的思路和解决方案。

项目摘要

外部扰动、数据噪声、时变性的存在使得不易获得模型的系统优化控制变得困难。本项目对复杂动态系统数据驱动的强化学习控制进行了理论研究与分析。从高样本利用率强化学习方法、ADP控制器设计方法、扰动观测器设计及抗扰控制,以及控制器性能在线评价方法四个方面展开,提出了一系列实用新型数据驱动算法,用于解决复杂多变量系统的优化控制问题。高样本利用率强化学习方法研究表明,L1和L2范数正则化能够有效地提高策略评价和控制学习方法的学习速度和样本利用率,实现基函数选择功能,并对噪声具有鲁棒性。在ADP跟踪控制方法中提出了一种新型的动作网络,提高算法的稳定性,同时降低人为调整超参数的负担。通过在ADP的设计中引入扩张状态观测器,将观测出的系统状态,特别是对未知动态或扰动的扩张观测状态作为ADP的输入,能够提高控制精度。对线性自抗扰控制器性能的稳定域分析发现,双轨迹法可以准确地确定出参数稳定区域,能够有效地辅助工业过程参数整定,简化应用过程。本项目研究所提出的在线强化学习控制框架不仅有助于数据驱动的强化学习控制理论的完善,也将研究成果向深度强化学习等更具应用前景的新型强化学习算法转化,推进了算法的实用化,因此具有重要的实际意义。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

DOI:10.16085/j.issn.1000-6613.2022-0221
发表时间:2022
4

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
5

特斯拉涡轮机运行性能研究综述

特斯拉涡轮机运行性能研究综述

DOI:10.16507/j.issn.1006-6055.2021.09.006
发表时间:2021

李大字的其他基金

相似国自然基金

1

基于强化学习的分布参数系统数据驱动控制

批准号:61503377
批准年份:2015
负责人:罗彪
学科分类:F0301
资助金额:21.00
项目类别:青年科学基金项目
2

复杂非线性系统数据驱动自学习最优控制理论与方法研究

批准号:61374105
批准年份:2013
负责人:魏庆来
学科分类:F0301
资助金额:80.00
项目类别:面上项目
3

动态数据驱动的间歇过程综合学习型优化控制

批准号:61004019
批准年份:2010
负责人:贾立
学科分类:F0301
资助金额:20.00
项目类别:青年科学基金项目
4

基于支持向量机的复杂连续系统强化学习控制研究

批准号:60804022
批准年份:2008
负责人:王雪松
学科分类:F0303
资助金额:18.00
项目类别:青年科学基金项目