饱和多控制器系统离策强化学习的有限时间最优控制

基本信息
批准号:61903351
项目类别:青年科学基金项目
资助金额:23.00
负责人:崔小红
学科分类:
依托单位:中国计量大学
批准年份:2019
结题年份:2022
起止时间:2020-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:
关键词:
数据驱动有限时间离策强化学习最优控制多控制器
结项摘要

There are strong practical engineering backgrounds for the problems of finite horizon optimal control for multi-control systems with constrained inputs. The finite horizon optimal control problems for uncertain multi-control systems based on data-driven off-policy reinforcement learning algorithm are discussed in this project. In order to overcome the difficulty of solving the time-based Hamilton-Jacobi-Isaac (HJI) equation for the finite horizon optimal control problems, an entirely novel optimal control theory and implementation methods based on off-policy reinforcement learning are established for multi-control systems with disturbances. The main works include:.1、A deep off-policy reinforcement learning algorithm is designed to learn the solution to the unknown time-based HJI equation. Then the Nash equilibrium of the games with multi-control and multi-disturbance is accomplished. 2、 The hierarchical control problem is discussed further and both the necessary and sufficient conditions of stackelberg-Nash-saddle equilibrium point are proved. The time-based actor-critic-disturbance NN is used to learn the solution to the coupled HJI equations. So the finite horizon optimal controller for uncertain systems with hierarchical control is obtained. 3、 Under the condition that the states can not be obtained, it is worth studying optimal output feedback control for the multiple and hierarchical controllers. The proposed methods in the project will improve the theoretical results in the domain of finite horizon optimal control for multi-control systems. Moreover, the proposed methods can promote the development of automation technology.

饱和多控制器系统有限时间最优控制问题具有很强的工程实际背景。本项目将基于离策强化学习的数据驱动方法解决不确定多控制器系统有限时间最优控制问题。针对系统存在多控制器和外扰的情况,解决有限时间最优控制问题中时变的哈密尔顿-雅克比-艾萨克(HJI)方程求解难题,拟建立以离策强化学习为基础的一套新的理论分析体系和求解方案。主要内容包括:1、设计离策强化学习算法深度学习未知时变HJI方程的解,进而实现饱和多控制器多扰动博弈问题的纳什均衡。2、进一步考虑多控制器主从分层控制问题,分析斯塔克尔伯格纳什鞍点存在的充分必要条件,采用时变的执行-评价-扰动网络结构对耦合的HJI方程进行在线学习,从而实现不确定主从多控制器系统有限时间最优控制。3、在状态信息无法获得的情况下,探索主从多控制器最优输出反馈问题。本项目所提出的方法将深化多控制器系统有限时间最优控制领域的理论成果,进一步推动自动化技术的深入发展。

项目摘要

本项目基于数据驱动的离策强化学习算法,解决了含有饱和多控制器不确定连续系统的有限时间最优控制问题。针对具有有限时间运动学特点的多控制器不确定系统,充分考虑控制器之间的竞争合作关系,基于自适应动态规划理论、有限时间最优控制理论和微分博弈理论,发挥数据驱动和神经网络深度学习的优势,提出了离策强化学习控制算法,解决了复杂系统的多控制器有限时间鲁棒最优控制问题。根据有限时间最优控制理论中的最优化原理,推导多控制器未知非线性连续系统外扰影响下满足的HJI方程,进而推导得到饱和多控制器零和博弈问题的纳什鞍点。模型信息未知的情况下,进一步设计得到基于数据驱动的离策强化学习算法。建立执行-评价-扰动网的三网络结构,采用梯度下降法实现算法的在线实施。本项目研究成果有望丰富和完善多控制器系统有限时间最优控制的理论和方法,并为拮抗气动肌肉驱动的仿生机器人这类实际被控系统仅利用获得数据便能快速做出最优决策提供理论依据,因此具有较强的实际应用价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

DOI:10.16085/j.issn.1000-6613.2022-0221
发表时间:2022
3

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
4

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015
5

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018

崔小红的其他基金

相似国自然基金

1

离散时间系统的脱策强化学习鲁棒优化控制

批准号:61873350
批准年份:2018
负责人:罗彪
学科分类:F0301
资助金额:63.00
项目类别:面上项目
2

基于数据的多控制器系统自学习最优控制

批准号:61873300
批准年份:2018
负责人:宋睿卓
学科分类:F0301
资助金额:63.00
项目类别:面上项目
3

饱和非线性奇异系统基于Hamilton函数的有限时间控制研究

批准号:61877028
批准年份:2018
负责人:孙丽瑛
学科分类:F0311
资助金额:50.00
项目类别:面上项目
4

无限维系统最优控制器的解析设计

批准号:19901030
批准年份:1999
负责人:吴汉忠
学科分类:A0601
资助金额:4.00
项目类别:青年科学基金项目