基于独立强化学习的多智能体协调优化方法及其在AGV系统中的应用

基本信息

批准号：61903209

项目类别：青年科学基金项目

资助金额：25.00

负责人：张震

学科分类：

依托单位：青岛大学

批准年份：2019

结题年份：2022

起止时间：2020-01-01 - 2022-12-31

项目状态：已结题

项目参与者：

关键词：

自动导引车系统强化学习决策调度中的强化学习多智能体强化学习

结项摘要

This project focuses on independent reinforcement learning and AGV systems. A general procedure for designing algorithms of multi-agent coordination optimization based on independent reinforcement learning together with methods of multi-task learning based on meta reinforcement learning will be proposed. The proposed methods will be applied to designing guided path network, dispatching, multi-AGV routing, and conflict solving in AGV systems. The research contents include: First, the convergence of independent reinforcement learning in repeated games and stochastic games with arbitrary agents and arbitrary actions will be analyzed through game theories and system stability theories. The aim is to guarantee scalability and convergence in the algorithm design process. The scalability of the designed algorithms is not affected by the dimension disaster of joint action space. Second, multi-task learning will be performed with the method of meta learning. With the aim to improve the learner' s performance in new tasks, under centralized learning and distributed learning, prior knowledge will be distillated from raw data generated in reinforcement learning tasks with end-to-end methods, and be stored in neural networks with memory. Third, we will employ independent reinforcement learning and meta-learning to optimize AGV systems in three aspects: First, the influence of AGVs' interaction will be considered during designing of a guided path networks. Second, dispatching and multi-AGV routing will be optimized as an integrated problem. Third, the control strategies of AGVs in conflict will be optimized to reduce delay.

本项目以独立强化学习和AGV系统为研究对象，拟提出基于独立强化学习的多智能体协调优化算法的“程式化”的设计步骤和基于元强化学习的多任务学习方法，并将所提方法用于解决AGV导引路径网络设计、任务调度、路径规划和冲突问题。研究内容包括：一、使用博弈理论和系统稳定性理论对独立强化学习在任意参与人任意动作重复博弈和随机博弈中进行收敛性分析，在算法设计过程中兼顾可扩展性和收敛性，使算法可扩展性不受联合动作空间维数灾影响；二、使用元学习方法进行多任务学习,在多智能体集中学习和分散学习设定下，使用端对端的方法直接从强化学习任务产生的数据中提取先验知识，并将其保存在带有记忆功能的神经网络中，以提高算法在新任务中的性能；三、使用独立强化学习和元学习从三方面优化AGV系统：设计导引路径网络时考虑多AGV的相互影响，将多AGV任务调度和路径规划作为整体进行优化，优化处于冲突状态的AGV的控制策略以降低延误。

项目摘要

本项目以合作型多智能体独立强化学习、迁移学习和AGV系统为研究对象，使用系统稳定性理论分析算法收敛性，设计了具有收敛性和迁移能力的算法，并将所提方法用于解决AGV任务调度和路径规划问题。具体研究内容包括：一、建立合作型多智能体独立强化学习算法模型，使用系统稳定系理论分析算法收敛性，为算法设计提供了理论基础。设计了一种基于学习自动机方法——LA-OCA，一种使用权重因子和动作概率进行探索-利用的方法——WRFMR和一种基于协调度的多智能体独立强化学习方法——CMARL-CD，证明了在合作重复博弈中，上述算法的所有严格最优联合动作都是局部渐进稳定的平衡点。在分布式传感器任务、6V6对战游戏和机器人协作搬运任务中，上述算法均取得了100%的成功率。二、提出算法用于缓解多智能体强化学习集中训练通信要求高和收敛速度慢的问题。具体包括：提出一种基于一致性的多智能体强化学习方法用于解决集中训练时对智能体通信要求过高的问题；提出一种基于QTRAN的多智能体深度强化学习算法用于提高算法收敛速度和优化能力。三、提出新的迁移学习方法解决多智能体强化学习在陌生任务中泛化能力弱的问题。针对状态空间相同、联合动作空间相同、但状态转移函数不同的问题，提出一种基于状态转移相似度的多智能体迁移强化学习算法。机器人协作搬运任务的仿真结果表明，在目标任务中，所提方法的启动速度和收敛速度均优于其他方法。四、提出一种基于梯度势的多智能体强化学习方法，对多AGV任务调度和路径规划进行统一优化，减少多台AGV完成搬运任务的总时间。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.16368/j.issn.1674-8999.2018.12.569

发表时间：2018

DOI：10.16796/j.cnki.1000-3770.2022.03.003

发表时间：2022

DOI：10.12354/j.issn.1000-8179.2021.20201763

发表时间：2021

DOI：

发表时间：2021

DOI：10.11862/CJIC.2019.081

发表时间：2019

张震的其他基金

批准号：81600247

批准年份：2016

资助金额：17.50

项目类别：青年科学基金项目

批准号：51005143

批准年份：2010

资助金额：20.00

项目类别：青年科学基金项目

批准号：81700451

批准年份：2017

资助金额：20.00

项目类别：青年科学基金项目

批准号：61004004

批准年份：2010

资助金额：23.00

项目类别：青年科学基金项目

批准号：31802315

批准年份：2018

资助金额：25.00

项目类别：青年科学基金项目

批准号：61872165

批准年份：2018

资助金额：59.00

项目类别：面上项目

批准号：51406100

批准年份：2014

资助金额：25.00

项目类别：青年科学基金项目

批准号：21801049

批准年份：2018

资助金额：25.00

项目类别：青年科学基金项目

批准号：31772235

批准年份：2017

资助金额：60.00

项目类别：面上项目

批准号：71473044

批准年份：2014

资助金额：58.00

项目类别：面上项目

批准号：71501023

批准年份：2015

资助金额：15.40

项目类别：青年科学基金项目

批准号：41701087

批准年份：2017

资助金额：24.00

项目类别：青年科学基金项目

批准号：51875313

批准年份：2018

资助金额：60.00

项目类别：面上项目

批准号：81000620

批准年份：2010

资助金额：20.00

项目类别：青年科学基金项目

批准号：78770033

批准年份：1987

资助金额：1.00

项目类别：面上项目

批准号：11405132

批准年份：2014

资助金额：26.00

项目类别：青年科学基金项目

批准号：81471809

批准年份：2014

资助金额：73.00

项目类别：面上项目

批准号：31802111

批准年份：2018

资助金额：23.00

项目类别：青年科学基金项目

批准号：61802429

批准年份：2018

资助金额：21.00

项目类别：青年科学基金项目

相似国自然基金

基于多智能体强化学习的多机器人系统研究

批准号：60905054

批准年份：2009

负责人：段勇

学科分类：F0309

资助金额：19.00

项目类别：青年科学基金项目

基于多梯度递推方法的强化学习多智能体系统跟踪控制问题研究

批准号：61903092

批准年份：2019

负责人：白伟伟

学科分类：F0301

资助金额：26.00

项目类别：青年科学基金项目

基于模因计算的多智能体迁移强化学习研究

批准号：61906032

批准年份：2019

负责人：候亚庆

学科分类：F0608

资助金额：24.00

项目类别：青年科学基金项目

多示例多标记学习中的最优化方法及其应用

批准号：10971223

批准年份：2009

负责人：邓乃扬

学科分类：A0405

资助金额：26.00

项目类别：面上项目

基于独立强化学习的多智能体协调优化方法及其在AGV系统中的应用

{{i.achievement_title}}

暂无此项成果

其他相关文献

肥胖型少弱精子症的发病机制及中医调体防治

EBPR工艺运行效果的主要影响因素及研究现状

外泌体在胃癌转移中作用机制的研究进展

基于铁路客流分配的旅客列车开行方案调整方法

中温固体氧化物燃料电池复合阴极材料LaBiMn_2O_6-Sm_(0.2)Ce_(0.8)O_(1.9)的制备与电化学性质

张震的其他基金

转录因子FOXA2调控血管内皮细胞间质转化过程的机制研究

基于视网膜皮层映射的巡线无人机仿生视觉机理研究

PCP信号通路介导肠神经嵴细胞分化异常在先天性巨结肠发生中的作用及其调控机制研究

时变系统跟踪控制理论及其在变转速系统中的应用研究

饲源性鼠李糖乳杆菌GG胞外多糖（LGG EPS）降低鱼类肝脂积累的分子机制

基于对称性复合图的渐进可扩展数据中心网络构建研究

微米液滴冲击微纳米结构表面的流动与传热机理研究

氮杂环丙烷开环聚合与聚乙烯亚胺基高分子的精密合成新方法

化感作用在生态控制喜旱莲子草过程中的效应及其机制研究

中国人口寿命不均等的变化趋势、影响因素及对策研究

信息不完全的双边匹配决策方法研究

基于长时间序列遥感的东帕米尔高原冰川运动时空特征研究

面向超快激光制造的大动态范围纳米运动系统与轨迹控制

PI3K/Akt/NF-κB信号传导通路在低频超声拮抗脑胶质瘤多药耐药中的调节作用

城市货运汽车营运组织优化的理论与方法

BCCD CTI跃变函数的物理机制与具体形式

低频低强度超声与姜黄素联合作用逆转ABCG2介导的胶质瘤侧群细胞多药耐药性的机制研究

锰氧化细菌与生物锰氧化物聚集体完全降解磺胺甲恶唑的分子机制研究

基于SDNFV的服务功能链智能编排技术研究

相似国自然基金