基于独立强化学习的多智能体协调优化方法及其在AGV系统中的应用

基本信息
批准号:61903209
项目类别:青年科学基金项目
资助金额:25.00
负责人:张震
学科分类:
依托单位:青岛大学
批准年份:2019
结题年份:2022
起止时间:2020-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:
关键词:
自动导引车系统强化学习决策调度中的强化学习多智能体强化学习
结项摘要

This project focuses on independent reinforcement learning and AGV systems. A general procedure for designing algorithms of multi-agent coordination optimization based on independent reinforcement learning together with methods of multi-task learning based on meta reinforcement learning will be proposed. The proposed methods will be applied to designing guided path network, dispatching, multi-AGV routing, and conflict solving in AGV systems. The research contents include: First, the convergence of independent reinforcement learning in repeated games and stochastic games with arbitrary agents and arbitrary actions will be analyzed through game theories and system stability theories. The aim is to guarantee scalability and convergence in the algorithm design process. The scalability of the designed algorithms is not affected by the dimension disaster of joint action space. Second, multi-task learning will be performed with the method of meta learning. With the aim to improve the learner' s performance in new tasks, under centralized learning and distributed learning, prior knowledge will be distillated from raw data generated in reinforcement learning tasks with end-to-end methods, and be stored in neural networks with memory. Third, we will employ independent reinforcement learning and meta-learning to optimize AGV systems in three aspects: First, the influence of AGVs' interaction will be considered during designing of a guided path networks. Second, dispatching and multi-AGV routing will be optimized as an integrated problem. Third, the control strategies of AGVs in conflict will be optimized to reduce delay.

本项目以独立强化学习和AGV系统为研究对象,拟提出基于独立强化学习的多智能体协调优化算法的“程式化”的设计步骤和基于元强化学习的多任务学习方法,并将所提方法用于解决AGV导引路径网络设计、任务调度、路径规划和冲突问题。研究内容包括:一、使用博弈理论和系统稳定性理论对独立强化学习在任意参与人任意动作重复博弈和随机博弈中进行收敛性分析,在算法设计过程中兼顾可扩展性和收敛性,使算法可扩展性不受联合动作空间维数灾影响;二、使用元学习方法进行多任务学习,在多智能体集中学习和分散学习设定下,使用端对端的方法直接从强化学习任务产生的数据中提取先验知识,并将其保存在带有记忆功能的神经网络中,以提高算法在新任务中的性能;三、使用独立强化学习和元学习从三方面优化AGV系统:设计导引路径网络时考虑多AGV的相互影响,将多AGV任务调度和路径规划作为整体进行优化,优化处于冲突状态的AGV的控制策略以降低延误。

项目摘要

本项目以合作型多智能体独立强化学习、迁移学习和AGV系统为研究对象,使用系统稳定性理论分析算法收敛性,设计了具有收敛性和迁移能力的算法,并将所提方法用于解决AGV任务调度和路径规划问题。具体研究内容包括:一、建立合作型多智能体独立强化学习算法模型,使用系统稳定系理论分析算法收敛性,为算法设计提供了理论基础。设计了一种基于学习自动机方法——LA-OCA,一种使用权重因子和动作概率进行探索-利用的方法——WRFMR和一种基于协调度的多智能体独立强化学习方法——CMARL-CD,证明了在合作重复博弈中,上述算法的所有严格最优联合动作都是局部渐进稳定的平衡点。在分布式传感器任务、6V6对战游戏和机器人协作搬运任务中,上述算法均取得了100%的成功率。二、提出算法用于缓解多智能体强化学习集中训练通信要求高和收敛速度慢的问题。具体包括:提出一种基于一致性的多智能体强化学习方法用于解决集中训练时对智能体通信要求过高的问题;提出一种基于QTRAN的多智能体深度强化学习算法用于提高算法收敛速度和优化能力。三、提出新的迁移学习方法解决多智能体强化学习在陌生任务中泛化能力弱的问题。针对状态空间相同、联合动作空间相同、但状态转移函数不同的问题,提出一种基于状态转移相似度的多智能体迁移强化学习算法。机器人协作搬运任务的仿真结果表明,在目标任务中,所提方法的启动速度和收敛速度均优于其他方法。四、提出一种基于梯度势的多智能体强化学习方法,对多AGV任务调度和路径规划进行统一优化,减少多台AGV完成搬运任务的总时间。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
3

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
4

卫生系统韧性研究概况及其展望

卫生系统韧性研究概况及其展望

DOI:10.16506/j.1009-6639.2018.11.016
发表时间:2018
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

张震的其他基金

批准号:81600247
批准年份:2016
资助金额:17.50
项目类别:青年科学基金项目
批准号:51005143
批准年份:2010
资助金额:20.00
项目类别:青年科学基金项目
批准号:81700451
批准年份:2017
资助金额:20.00
项目类别:青年科学基金项目
批准号:61004004
批准年份:2010
资助金额:23.00
项目类别:青年科学基金项目
批准号:31802315
批准年份:2018
资助金额:25.00
项目类别:青年科学基金项目
批准号:61872165
批准年份:2018
资助金额:59.00
项目类别:面上项目
批准号:51406100
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:21801049
批准年份:2018
资助金额:25.00
项目类别:青年科学基金项目
批准号:31772235
批准年份:2017
资助金额:60.00
项目类别:面上项目
批准号:71473044
批准年份:2014
资助金额:58.00
项目类别:面上项目
批准号:71501023
批准年份:2015
资助金额:15.40
项目类别:青年科学基金项目
批准号:41701087
批准年份:2017
资助金额:24.00
项目类别:青年科学基金项目
批准号:51875313
批准年份:2018
资助金额:60.00
项目类别:面上项目
批准号:81000620
批准年份:2010
资助金额:20.00
项目类别:青年科学基金项目
批准号:78770033
批准年份:1987
资助金额:1.00
项目类别:面上项目
批准号:11405132
批准年份:2014
资助金额:26.00
项目类别:青年科学基金项目
批准号:81471809
批准年份:2014
资助金额:73.00
项目类别:面上项目
批准号:31802111
批准年份:2018
资助金额:23.00
项目类别:青年科学基金项目
批准号:61802429
批准年份:2018
资助金额:21.00
项目类别:青年科学基金项目

相似国自然基金

1

基于多智能体强化学习的多机器人系统研究

批准号:60905054
批准年份:2009
负责人:段勇
学科分类:F0309
资助金额:19.00
项目类别:青年科学基金项目
2

基于多梯度递推方法的强化学习多智能体系统跟踪控制问题研究

批准号:61903092
批准年份:2019
负责人:白伟伟
学科分类:F0301
资助金额:26.00
项目类别:青年科学基金项目
3

基于模因计算的多智能体迁移强化学习研究

批准号:61906032
批准年份:2019
负责人:候亚庆
学科分类:F0608
资助金额:24.00
项目类别:青年科学基金项目
4

多示例多标记学习中的最优化方法及其应用

批准号:10971223
批准年份:2009
负责人:邓乃扬
学科分类:A0405
资助金额:26.00
项目类别:面上项目