基于合作策略自学习的多机器人系统智能协作模型

基本信息
批准号:61074058
项目类别:面上项目
资助金额:36.00
负责人:陈鑫
学科分类:
依托单位:中南大学
批准年份:2010
结题年份:2013
起止时间:2011-01-01 - 2013-12-31
项目状态: 已结题
项目参与者:王春生,戴朝晖,聂卓赟,袁姣红,陈刚
关键词:
多智能体系统多机器人协调控制多机器人系统泛化模型自适应与自学习
结项摘要

针对多机器人系统智能协作存在的连续状态空间环境下合作策略自学习,以及合作策略自学习过程与多机器人协调控制的综合建模问题,研究基于新型泛化函数模型的多机器人系统合作策略自适应模型和智能协作模型。通过研究连续状态-动作空间的状态转移过程建模,建立包含状态转移估计和值函数逼近的泛化函数模型;进而研究基于泛化函数模型的合作策略优化算法和强化学习算法,构建多机器人系统合作策略自适应模型。通过分析合作策略自适应模型的时变策略对多机器人协调控制性能的影响,研究描述多机器人系统智能行为演化和空间运动过程的多机器人系统智能协作建模技术。通过建立多机器人实验系统,探讨合作策略自学习机制在多机器人系统中的实现方式和有效性。本项目的研究将为解决多机器人系统策略学习机制的泛化问题和同时学习问题提供有效的解决方案,也为多机器人系统智能协作机制的设计提供有效的理论分析和实现手段,具有重要的理论价值和应用前景。

项目摘要

本项目针对连续空间多机器人系统的合作行为优化存在环境模型未知、策略优化收敛难以保证、工程实现中计算复杂度高等问题,以多智能体强化学习为理论基础,基于分时跟踪的强化学习和高斯回归建模方法,建立了一种新的合作策略自学习框架。基于所提的学习框架,通过提出具有较强泛化能力、保证同时学习收敛性的多智能体学习算法,构建了多机器人系统合作策略自适应模型。首先,通过高斯回归建立环境状态转移模型,提出了面向降维的联合状态独立动作空间基于非直接策略估计的跟踪学习算法,建立了基于高斯回归的连续多智能体最佳响应策略学习模型,为实现多机器人分布式合作策略学习以及连续空间策略泛化提供了基础算法。其次,通过分析多智能体强化学习在协作环境中的存在的动态性,研究强化学习的收敛条件、跟踪学习的运行特点,以及策略优化的需求,提出了合作式多智能体分时跟踪学习框架。结合实际应用环境建立多智能体跟踪学习切换原则,实现了一种宏观同时学习,以面向离散空间环境下建立多机器人协作策略优化方法。在以上方法的基础上,研究了影响多机器人系统协作建模的行为特点、环境反馈以及采样特点,对值函数及个体行为采用高斯回归对其进行逼近建模,将分时跟踪框架扩展到连续空间多智能体系统,建立了连续空间基于高斯回归的泛化模型的多智能体跟踪学习算法,完成连续空间多机器人系统合作策略自适应优化的目标。通过实物实验、RoboCup救援机器人仿真比赛取得的成绩,验证了所提方法的可行性和高效性。此外,还研究了多智能体同时学习中的预测、适应性等问题,并将所提的两阶段适应学习算法应用多机器人三连杆系统,也为模型未知的高维控制系统设计提供了新思路。本项目所提分时跟踪框架及基于高斯回归建模的学习方法可以实现离散/连续空间多智能体降维学习以及泛化,在保证策略优化收敛性的同时,又易于工程实现。通过本项目的研究在解决多智能体降维和同时学习问题的同时,有力促进了多智能体强化学习方法在连续空间多机器人系统的融合,为实现智能多机器人系统提供了自适应策略优化的实现方案,具有重要的理论意义和应用价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
4

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
5

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019

陈鑫的其他基金

批准号:81601606
批准年份:2016
资助金额:17.00
项目类别:青年科学基金项目
批准号:51175214
批准年份:2011
资助金额:60.00
项目类别:面上项目
批准号:81802405
批准年份:2018
资助金额:21.00
项目类别:青年科学基金项目
批准号:51609244
批准年份:2016
资助金额:21.00
项目类别:青年科学基金项目
批准号:81502363
批准年份:2015
资助金额:18.00
项目类别:青年科学基金项目
批准号:61300016
批准年份:2013
资助金额:23.00
项目类别:青年科学基金项目
批准号:31501115
批准年份:2015
资助金额:21.00
项目类别:青年科学基金项目
批准号:61376016
批准年份:2013
资助金额:82.00
项目类别:面上项目
批准号:81802494
批准年份:2018
资助金额:21.00
项目类别:青年科学基金项目
批准号:20704042
批准年份:2007
资助金额:20.00
项目类别:青年科学基金项目
批准号:81370259
批准年份:2013
资助金额:70.00
项目类别:面上项目
批准号:11002089
批准年份:2010
资助金额:22.00
项目类别:青年科学基金项目
批准号:51408389
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:81902106
批准年份:2019
资助金额:21.00
项目类别:青年科学基金项目
批准号:81601469
批准年份:2016
资助金额:17.00
项目类别:青年科学基金项目
批准号:11904273
批准年份:2019
资助金额:27.00
项目类别:青年科学基金项目
批准号:51602270
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:61106029
批准年份:2011
资助金额:25.00
项目类别:青年科学基金项目
批准号:51106178
批准年份:2011
资助金额:25.00
项目类别:青年科学基金项目
批准号:81200261
批准年份:2012
资助金额:24.00
项目类别:青年科学基金项目
批准号:81870193
批准年份:2018
资助金额:57.00
项目类别:面上项目
批准号:81801303
批准年份:2018
资助金额:21.00
项目类别:青年科学基金项目
批准号:61873248
批准年份:2018
资助金额:63.00
项目类别:面上项目
批准号:81070180
批准年份:2010
资助金额:32.00
项目类别:面上项目
批准号:61473316
批准年份:2014
资助金额:82.00
项目类别:面上项目
批准号:31871386
批准年份:2018
资助金额:60.00
项目类别:面上项目
批准号:11372185
批准年份:2013
资助金额:90.00
项目类别:面上项目

相似国自然基金

1

基于动态分层与自学习的多智能体自适应协作模型

批准号:60874042
批准年份:2008
负责人:曹卫华
学科分类:F0301
资助金额:30.00
项目类别:面上项目
2

狭小微装配空间多机械手自学习智能协作控制方法研究

批准号:61803354
批准年份:2018
负责人:张娟
学科分类:F0309
资助金额:21.00
项目类别:青年科学基金项目
3

基于多智能体的动态健康评价系统模型及策略

批准号:61074175
批准年份:2010
负责人:王洪瑞
学科分类:F0303
资助金额:35.00
项目类别:面上项目
4

基于群体智能的多Agent协作模型与适应性研究

批准号:60905066
批准年份:2009
负责人:唐贤伦
学科分类:F0608
资助金额:17.00
项目类别:青年科学基金项目