The abilities of searching unknown environments and learning cooperative policies on line are viewed as the keys to realize "intelligent" multi-robot systems. However, the decentralized implementation and the complex dynamics of individuals induce high computation complexity, difficult generalization, and poor applicability in practice. Aiming at these problems, the project studies double-time-scale cooperative optimization framework based on Similar-POMDP, in which the multi-robot behavior optimization is reached by the coordination between the cooperative strategy optimization and the consensus optimization control under time-varying topologies. Thus the space complexity of policy learning is reduced significantly. To make the cooperative policies feasible during persistent policy optimization, the distributed consensus protocol using guaranteed cost control is studied in order to ensure topology connected. Then based on the evaluation method for the performance of consensus and the approximate dynamic programming (ADP) for general optimization index, the cooperative policy optimization algorithm with non-parametric critic module is developed, in order to realize efficient generalization and adaptive optimization for cooperative policy under the unknown and unmodeled environments. Using the directed graph decomposition and the multi-agent coordinated learning, the project investigates the decentralized way to realize such cooperative policy optimization, in order to improve feasibility in practice. The project will finally achieve the mechanism of simultaneous cooperative strategy optimization and consensus control. It will serve as the solution to reach intelligence of multiple robot systems under complex environment. The research is of great theoretical significance and application prospects.
具有探索未知环境和自学习合作行为的能力是实现智能多机器人系统的关键之一,但系统分布式特点和个体的动力学特性使合作行为自学习存在计算复杂度高、泛化困难和工程适用性差等问题。本项目针对这些问题研究基于Similar-POMDP的双时间尺度多机器人优化架构,将多机器人行为优化分解为互为依赖的时变拓扑下一致性最优控制和合作策略优化,从而降低策略学习的空间复杂度;研究保证拓扑连通的分布式多机器人保性能一致性控制方法,保证策略的可实现性;结合一致性性能评价和面向一般指标的逼近动态规划优化方法,设计基于非参数评价器的合作策略优化算法,实现非建模条件下多机器人合作策略的有效泛化和自适应优化;结合图分解和多智能体协同学习,研究合作策略的分布式优化方法,提高模型的工程适用性。项目将从机制上实现分布式策略优化与一致性控制的协同工作,为智能多机器人系统的实现提供解决方案,具有重要理论意义和应用价值。
本项目针对协作式多机器人系统合作自学习存在环境模型未知、计算复杂度高、泛化困难和工程适用性差等问题,通过综合一致性控制,多智能体合作策略学习,自适应动态规划等理论方法,构建了融合有限时间一致性控制时间尺度和合作策略优化学习时间尺度的双时间尺度优化架构,将多机器人合作行为优化分解为时变策略下有限时间一致性控制和多智能体合作策略学习。首先,针对多机器人系统合作策略优化引起的机器人间交互拓扑时变的问题,提出了时变有向拓扑条件下的二阶多智能体系统分布式有限时间一致性控制方法。同时,提出了一种基于状态反馈的有限时间一致性协议以加快有限时间一致性算法的收敛速度,从而保证合作策略学习的高效实现。其次,提出了一种基于高斯过程回归的双阶段值迭代评价网络设计方法,同时进行值函数逼近和高斯超参数优化,以实现环境模型未知情况下多机器人系统合作策略自学习与泛化。基于高斯过程回归,通过分析多智能体强化学习在协作环境中的动态性以及合作策略优化的需求,结合实际应用环境建立多智能体跟踪学习切换原则,提出了基于分时跟踪框架和高斯过程回归的多智能体协同学习方法;通过分析多智能体强化学习存在的同时学习问题与协作问题,提出了分布式同时学习与合作策略搜索算法,以缓解多机器人系统存在高维输入导致的维度灾,减小计算复杂度,完成多机器人系统合作策略自适应优化的目标。此外,研究了模型无关的多智能体系统最优一致性控制算法,以提高一致性控制算法的工程适用性。通过搭建针对多机器人系统的仿真系统及实际系统实验平台,验证了所提方法的可行性和高效性。本项目的研究为复杂未知环境下的多机器人系统提供了一种切实可行的协作行为自适应优化与控制方法,有力促进了协作式多机器人系统在复杂任务与未知环境下的应用,具有重要的理论意义和工程应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
涡度相关技术及其在陆地生态系统通量研究中的应用
基于SSVEP 直接脑控机器人方向和速度研究
拥堵路网交通流均衡分配模型
基于多模态信息特征融合的犯罪预测算法研究
微电网多时间尺度协同优化调度与自适应保护研究
基于多策略融合粒子群算法的点焊机器人路径多目标优化
机器人高速双丝弧焊多源信息融合与智能参数匹配策略研究
多尺度DEM一致性地形特征提取与自适应转换