半Markov决策过程(SMDP)描述的一类实际人造系统,即受控半Markov系统,具有状态空间规模大和模型参数不确定性两个重要特点,存在"建模难"和"维数灾"问题。项目首先针对参数不确定性,运用最新的SMDP性能势理论,研究参数相关和不相关两种情况下,求解最优鲁棒控制策略的有关理论和算法;其次,针对"维数灾"和"建模难"情形,本项目把SMDP性能势理论和先进的神经元动态规划(NDP)方法有机结合,根据系统的单个样本轨道,研究基于Monto-Carlo仿真、TD学习和Q学习的NDP优化理论和算法。针对折扣性能准则和平均性能准则,将给出统一的理论框架和算法;参数空间或策略空间的探索中,将融入进化算法或模拟退火算法等全局搜索方法;同时给出并行算法;建立存在计算误差、不确定性误差、估计偏差或逼近误差时的最优性能误差界。研究结果对改进系统设计、提供鲁棒决策机制、提高系统的管理水平具有一定科学意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
特斯拉涡轮机运行性能研究综述
主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究
拥堵路网交通流均衡分配模型
miR-143/HDAC7 pathway 通过调控组蛋白乙酰化改变影响骨肉瘤转移特性的分子机制研究
半马尔可夫控制过程基于性能势的优化理论和并行算法
基于自适应动态规划的非线性系统鲁棒控制与分散镇定
随机Markov跳跃系统的鲁棒控制与滤波设计
半Markov决策过程基于灵敏度优化及其应用