There are strong practical engineering backgrounds for the problems of finite horizon optimal control for multi-control systems with constrained inputs. The finite horizon optimal control problems for uncertain multi-control systems based on data-driven off-policy reinforcement learning algorithm are discussed in this project. In order to overcome the difficulty of solving the time-based Hamilton-Jacobi-Isaac (HJI) equation for the finite horizon optimal control problems, an entirely novel optimal control theory and implementation methods based on off-policy reinforcement learning are established for multi-control systems with disturbances. The main works include:.1、A deep off-policy reinforcement learning algorithm is designed to learn the solution to the unknown time-based HJI equation. Then the Nash equilibrium of the games with multi-control and multi-disturbance is accomplished. 2、 The hierarchical control problem is discussed further and both the necessary and sufficient conditions of stackelberg-Nash-saddle equilibrium point are proved. The time-based actor-critic-disturbance NN is used to learn the solution to the coupled HJI equations. So the finite horizon optimal controller for uncertain systems with hierarchical control is obtained. 3、 Under the condition that the states can not be obtained, it is worth studying optimal output feedback control for the multiple and hierarchical controllers. The proposed methods in the project will improve the theoretical results in the domain of finite horizon optimal control for multi-control systems. Moreover, the proposed methods can promote the development of automation technology.
饱和多控制器系统有限时间最优控制问题具有很强的工程实际背景。本项目将基于离策强化学习的数据驱动方法解决不确定多控制器系统有限时间最优控制问题。针对系统存在多控制器和外扰的情况,解决有限时间最优控制问题中时变的哈密尔顿-雅克比-艾萨克(HJI)方程求解难题,拟建立以离策强化学习为基础的一套新的理论分析体系和求解方案。主要内容包括:1、设计离策强化学习算法深度学习未知时变HJI方程的解,进而实现饱和多控制器多扰动博弈问题的纳什均衡。2、进一步考虑多控制器主从分层控制问题,分析斯塔克尔伯格纳什鞍点存在的充分必要条件,采用时变的执行-评价-扰动网络结构对耦合的HJI方程进行在线学习,从而实现不确定主从多控制器系统有限时间最优控制。3、在状态信息无法获得的情况下,探索主从多控制器最优输出反馈问题。本项目所提出的方法将深化多控制器系统有限时间最优控制领域的理论成果,进一步推动自动化技术的深入发展。
本项目基于数据驱动的离策强化学习算法,解决了含有饱和多控制器不确定连续系统的有限时间最优控制问题。针对具有有限时间运动学特点的多控制器不确定系统,充分考虑控制器之间的竞争合作关系,基于自适应动态规划理论、有限时间最优控制理论和微分博弈理论,发挥数据驱动和神经网络深度学习的优势,提出了离策强化学习控制算法,解决了复杂系统的多控制器有限时间鲁棒最优控制问题。根据有限时间最优控制理论中的最优化原理,推导多控制器未知非线性连续系统外扰影响下满足的HJI方程,进而推导得到饱和多控制器零和博弈问题的纳什鞍点。模型信息未知的情况下,进一步设计得到基于数据驱动的离策强化学习算法。建立执行-评价-扰动网的三网络结构,采用梯度下降法实现算法的在线实施。本项目研究成果有望丰富和完善多控制器系统有限时间最优控制的理论和方法,并为拮抗气动肌肉驱动的仿生机器人这类实际被控系统仅利用获得数据便能快速做出最优决策提供理论依据,因此具有较强的实际应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于多模态信息特征融合的犯罪预测算法研究
离散时间系统的脱策强化学习鲁棒优化控制
基于数据的多控制器系统自学习最优控制
饱和非线性奇异系统基于Hamilton函数的有限时间控制研究
无限维系统最优控制器的解析设计