基于多智能体强化学习的多机器人系统研究

基本信息

批准号：60905054

项目类别：青年科学基金项目

资助金额：19.00

负责人：段勇

学科分类：

依托单位：沈阳工业大学

批准年份：2009

结题年份：2012

起止时间：2010-01-01 - 2012-12-31

项目状态：已结题

项目参与者：崔宝侠,靳鹏,曲星宇,王磊,伊静

关键词：

机器人足球比赛强化学习决策策略多智能系统

结项摘要

多机器人系统的协调以及如何使群体机器人能够适应其任务环境的动态变化而自动地规划其任务处理行为一直是多机器人系统研究的主要问题，而强化学习方法能够使机器人在同环境的交互过程中学习决策能力和行为能力。基于此，本项目就以下内容展开研究工作：（1）研究强化学习状态空间量化方法，以解决强化学习的维数灾难问题；（2）研究利用函数逼近方法的非线性映射能力来实现强化学习的状态空间到动作空间的映射，以解决强化学习大规模、连续的状态空间和动作空间问题；（3）研究智能体预测方法和学习策略共享机制，以解决非马尔可夫过程的多智能体强化学习问题（4）研究强化学习在机器人足球比赛这种典型的多机器人系统中的应用，建立机器人足球决策系统的分级学习结构，使用研究的多智能体强化学习方法来实现各级任务的学习。因此，本项目的研究能够提高机器人的智能水平、自和学习能力，对实现多智能体之间的分工与协作有着重要的理论意义和实际价值。

项目摘要

如何使机器人能够适应其任务环境的动态变化而自动地规划其任务处理行为一直是多机器人系统研究的主要问题，而强化学习方法能够使机器人在同环境的交互过程中学习决策能力和行为能力。本项目主要完成的研究工作和取得的结果如下：（1）研究了一种基于矢量量化的个体强化学习状态空间量化方法，有效地实现了强化学习状态空间基于分布特征的自适应分割；（2）分别研究了基于模糊推理系统和神经网络的强化学习方法，利用智能算法的非线性映射能力来解决强化学习中大规模、连续的状态空间和动作空间问题；（3）给出了多智能系统中联合动作获取方法和学习策略共享机制，实现了离散状态空间的多智能体强化学习，体现多智能学习中各智能体的相互影响和制约；（4）研究了个体强化学习理论和方法在智能移动机器人导航行为学习中的应用；（5）建立机器人足球决策系统的分级递阶结构，使用研究的强化学习方法来实现决策策略中角色分配、动作选择等各级任务的学习。因此，本项目的研究解决了部分强化学习的理论问题，拓展了强化学习在机器人导航和足球机器人比赛中的应用，为自主机器人的研究提供了新的思路和途径。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.16796/j.cnki.1000-3770.2022.03.003

发表时间：2022

DOI：

发表时间：2021

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：10.12202/j.0476-0301.2022178

发表时间：2022

DOI：

发表时间：2020

段勇的其他基金

批准号：81760384

批准年份：2017

资助金额：35.00

项目类别：地区科学基金项目

批准号：81460325

批准年份：2014

资助金额：47.00

项目类别：地区科学基金项目

批准号：11171054

批准年份：2011

资助金额：32.00

项目类别：面上项目

相似国自然基金

基于模因计算的多智能体迁移强化学习研究

批准号：61906032

批准年份：2019

负责人：候亚庆

学科分类：F0608

资助金额：24.00

项目类别：青年科学基金项目

基于多智能体强化学习的电子市场动态定价研究

批准号：70802025

批准年份：2008

负责人：韩伟

学科分类：G0209

资助金额：18.00

项目类别：青年科学基金项目

基于多智能体强化学习的大规模协作关键技术研究

批准号：61906027

批准年份：2019

负责人：张程伟

学科分类：F0603

资助金额：25.00

项目类别：青年科学基金项目

基于多梯度递推方法的强化学习多智能体系统跟踪控制问题研究

批准号：61903092

批准年份：2019

负责人：白伟伟

学科分类：F0301

资助金额：26.00

项目类别：青年科学基金项目

基于多智能体强化学习的多机器人系统研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

EBPR工艺运行效果的主要影响因素及研究现状

基于铁路客流分配的旅客列车开行方案调整方法

一种基于多层设计空间缩减策略的近似高维优化方法

复杂系统科学研究进展

基于多色集合理论的医院异常工作流处理建模

段勇的其他基金

miR-4778-5p作为宣威肺癌潜在新型分子标志物的临床验证及作用机制

云南宣威肺癌潜在分子标志物的高通量多维组学筛选及功能机制研究

径向基无网格方法的一些关键问题及电磁应用

相似国自然基金