This project focuses on independent reinforcement learning and AGV systems. A general procedure for designing algorithms of multi-agent coordination optimization based on independent reinforcement learning together with methods of multi-task learning based on meta reinforcement learning will be proposed. The proposed methods will be applied to designing guided path network, dispatching, multi-AGV routing, and conflict solving in AGV systems. The research contents include: First, the convergence of independent reinforcement learning in repeated games and stochastic games with arbitrary agents and arbitrary actions will be analyzed through game theories and system stability theories. The aim is to guarantee scalability and convergence in the algorithm design process. The scalability of the designed algorithms is not affected by the dimension disaster of joint action space. Second, multi-task learning will be performed with the method of meta learning. With the aim to improve the learner' s performance in new tasks, under centralized learning and distributed learning, prior knowledge will be distillated from raw data generated in reinforcement learning tasks with end-to-end methods, and be stored in neural networks with memory. Third, we will employ independent reinforcement learning and meta-learning to optimize AGV systems in three aspects: First, the influence of AGVs' interaction will be considered during designing of a guided path networks. Second, dispatching and multi-AGV routing will be optimized as an integrated problem. Third, the control strategies of AGVs in conflict will be optimized to reduce delay.
本项目以独立强化学习和AGV系统为研究对象,拟提出基于独立强化学习的多智能体协调优化算法的“程式化”的设计步骤和基于元强化学习的多任务学习方法,并将所提方法用于解决AGV导引路径网络设计、任务调度、路径规划和冲突问题。研究内容包括:一、使用博弈理论和系统稳定性理论对独立强化学习在任意参与人任意动作重复博弈和随机博弈中进行收敛性分析,在算法设计过程中兼顾可扩展性和收敛性,使算法可扩展性不受联合动作空间维数灾影响;二、使用元学习方法进行多任务学习,在多智能体集中学习和分散学习设定下,使用端对端的方法直接从强化学习任务产生的数据中提取先验知识,并将其保存在带有记忆功能的神经网络中,以提高算法在新任务中的性能;三、使用独立强化学习和元学习从三方面优化AGV系统:设计导引路径网络时考虑多AGV的相互影响,将多AGV任务调度和路径规划作为整体进行优化,优化处于冲突状态的AGV的控制策略以降低延误。
本项目以合作型多智能体独立强化学习、迁移学习和AGV系统为研究对象,使用系统稳定性理论分析算法收敛性,设计了具有收敛性和迁移能力的算法,并将所提方法用于解决AGV任务调度和路径规划问题。具体研究内容包括:一、建立合作型多智能体独立强化学习算法模型,使用系统稳定系理论分析算法收敛性,为算法设计提供了理论基础。设计了一种基于学习自动机方法——LA-OCA,一种使用权重因子和动作概率进行探索-利用的方法——WRFMR和一种基于协调度的多智能体独立强化学习方法——CMARL-CD,证明了在合作重复博弈中,上述算法的所有严格最优联合动作都是局部渐进稳定的平衡点。在分布式传感器任务、6V6对战游戏和机器人协作搬运任务中,上述算法均取得了100%的成功率。二、提出算法用于缓解多智能体强化学习集中训练通信要求高和收敛速度慢的问题。具体包括:提出一种基于一致性的多智能体强化学习方法用于解决集中训练时对智能体通信要求过高的问题;提出一种基于QTRAN的多智能体深度强化学习算法用于提高算法收敛速度和优化能力。三、提出新的迁移学习方法解决多智能体强化学习在陌生任务中泛化能力弱的问题。针对状态空间相同、联合动作空间相同、但状态转移函数不同的问题,提出一种基于状态转移相似度的多智能体迁移强化学习算法。机器人协作搬运任务的仿真结果表明,在目标任务中,所提方法的启动速度和收敛速度均优于其他方法。四、提出一种基于梯度势的多智能体强化学习方法,对多AGV任务调度和路径规划进行统一优化,减少多台AGV完成搬运任务的总时间。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
拥堵路网交通流均衡分配模型
基于多模态信息特征融合的犯罪预测算法研究
卫生系统韧性研究概况及其展望
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于多智能体强化学习的多机器人系统研究
基于多梯度递推方法的强化学习多智能体系统跟踪控制问题研究
基于模因计算的多智能体迁移强化学习研究
多示例多标记学习中的最优化方法及其应用