半Markov决策过程(SMDP)描述的一类实际人造系统,即受控半Markov系统,具有状态空间规模大和模型参数不确定性两个重要特点,存在"建模难"和"维数灾"问题。项目首先针对参数不确定性,运用最新的SMDP性能势理论,研究参数相关和不相关两种情况下,求解最优鲁棒控制策略的有关理论和算法;其次,针对"维数灾"和"建模难"情形,本项目把SMDP性能势理论和先进的神经元动态规划(NDP)方法有机结合,根据系统的单个样本轨道,研究基于Monto-Carlo仿真、TD学习和Q学习的NDP优化理论和算法。针对折扣性能准则和平均性能准则,将给出统一的理论框架和算法;参数空间或策略空间的探索中,将融入进化算法或模拟退火算法等全局搜索方法;同时给出并行算法;建立存在计算误差、不确定性误差、估计偏差或逼近误差时的最优性能误差界。研究结果对改进系统设计、提供鲁棒决策机制、提高系统的管理水平具有一定科学意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
一种基于多层设计空间缩减策略的近似高维优化方法
新型树启发式搜索算法的机器人路径规划
"多对多"模式下GEO卫星在轨加注任务规划
现代优化理论与应用
机电控制无级变速器执行机构动态响应特性仿真研究
miR-143/HDAC7 pathway 通过调控组蛋白乙酰化改变影响骨肉瘤转移特性的分子机制研究
半马尔可夫控制过程基于性能势的优化理论和并行算法
基于自适应动态规划的非线性系统鲁棒控制与分散镇定
随机Markov跳跃系统的鲁棒控制与滤波设计
半Markov决策过程基于灵敏度优化及其应用