The Q-learning optimal control has the outstanding ability to solve the optimal control problem when the knowledge/model of the plant is unavailable. However, open problems about the stability, convergence and optimality are bottleneck of success to apply this method in practice. In order to solve these open problems of the Q-learning optimal control, this program tries to investigate the domain of attraction of the closed-loop, and analyze the error bounds of the convergence and optimality by considering the Q-function approximation errors. Studies include: 1) due to the difficulty of achieving the global stabilization, the domain of attraction of the closed-loop will be enlarged on the basis of our previous work; meanwhile, the admissible control set will be given; 2) by proposing Q-learning operator and constructing the new analysis framework, which describe the iteration dynamics in the learning process, the quantitative analysis result about the convergence will be given under the condition that the Q-function approximation errors are considered; 3) under the constructed new analysis framework, considering the optimal Q-function estimation error, the quantitative analysis result about the optimality will be given; 4) the proposed theories will be applied to the robot assisted neurosurgery system.
在模型未知只有数据可用的情况下,Q-学习最优控制是求解最优控制问题的有效工具。然而,由于缺少稳定性、收敛性及最优性的相关结果,Q-学习最优控制的实际应用受到了严重限制。本项目致力于给出Q-学习最优控制的闭环吸引域分析,以及考虑近似误差影响的收敛性能与最优性误差界分析。研究内容包括:1)考虑到非线性系统的全局镇定很难实现,基于数据能量函数,提出数据驱动闭环吸引域最大化及容许控制集合求解方法;2)提出Q-学习算子,构建全新的Q-学习最优控制分析框架,利用Q-学习算子描述学习过程中的迭代轴动态,从而分析函数逼近误差对迭代轴动态的影响,给出收敛性能定量分析结果,即最优Q函数的估计误差界;3)在构建的分析框架下,考虑最优Q函数估计误差的影响,给出最优性定量分析结果,即获得的次优控制器的实际指标函数与最优指标函数之间的误差界;4)以神经外科手术辅助机器人为仿真和实验研究对象,验证和完善给出的理论。
在模型未知只有数据可用的情况下,Q-学习最优控制是求解最优控制问题的有效工具。然而,由于缺少稳定性、收敛性及最优性的相关结果,Q-学习最优控制的实际应用受到了严重限制。本项目的研究内容包括:1) 数据驱动闭环吸引域最大化及容许控制集合求解;2) 考虑函数逼近误差影响的Q-学习最优控制的收敛性能定量分析;3) 考虑最优Q 函数估计误差影响的Q-学习最优控制的最优性定量分析。取得的重要结果包括:1)针对一般非线性离散时间被控对象,给出闭环吸引域估计及非结构化镇定控制器集合的充分条件;在模型未知只有数据可用的情况下,提出了闭环吸引域及非结构化镇定控制器集合的数据驱动估计方法;将平方和多项式作为Lyapunov函数候选集合,通过构造可求解的优化问题从候选集合中选取合适Lyapunov函数,来实现闭环吸引域最大化。科学意义:由于缺乏解析求解一般非线性不等式的数学工具,一般非线性系统的控制问题对传统控制方法依然是巨大挑战。本项目跳出传统思路,注意到相比解析求解不等式,验证某一值是否满足不等式要容易许多。基于上述思想,该成果具有鲜明的开创性特征,拓展了控制科学前沿。2)在考虑函数逼近误差的情况下,给出了最优Q函数的估计与其真实值之间误差界的定量分析结果,该误差界由函数逼近器的逼近误差和相邻两次迭代估计值的差确定。科学意义:最优Q函数的估计与其真实值之间的误差界是进一步闭环系统的最优性误差界的前提。3)在考虑最优Q 函数估计误差的情况下,给出次优控制器的实际闭环性能指标函数与最优指标函数之间误差界的定量分析结果。科学意义:完善了Q-学习算法应用于动态系统最优控制的理论框架,同时,对Q-学习算法的实际应用具有十分重要的指导意义。项目负责人发表与本项目相关的学术论文4篇,其中2篇发表在控制领域顶级期刊Automatica上,1篇发表在顶级会议IFAC World Congress。同时,通过本项目的研究,项目负责人将强化学习鲁棒控制问题作为后续研究的重点,围绕此方向于2021年新立国家基金面上项目1项。
{{i.achievement_title}}
数据更新时间:2023-05-31
地震作用下岩羊村滑坡稳定性与失稳机制研究
面向工件表面缺陷的无监督域适应方法
采用黏弹性人工边界时显式算法稳定性条件
基于空洞卷积鉴别器的语义分割迁移算法
基于渐近均匀化理论的黄土高原草本植物固土效果模拟
最优控制问题混合有限元超收敛性研究
神经网络学习算法收敛性研究
机器学习随机优化方法的个体收敛性研究
深度结构的子空间学习模型及其收敛性与鲁棒性