基于事件的强化学习及其在群机器人优化控制中的应用

基本信息

批准号：61273327

项目类别：面上项目

资助金额：79.00

负责人：陈春林

学科分类：

依托单位：南京大学

批准年份：2012

结题年份：2016

起止时间：2013-01-01 - 2016-12-31

项目状态：已结题

项目参与者：袁洪良,FrankJiang,李华雄,朱美琳,杨佩,宋志强,盛寅,张兴楠

关键词：

强化学习群机器人优化控制基于事件的学习

结项摘要

Reinforcement learning is one of the key techniques to implement intelligent systems. It is an effective way to overcome the curse of dimensionality and speed up learning by designing hierarchical learning algorithms using the structural information of the problems. This project will take the large scale optimal control problems in the real swarm robot systems as the background of applications. Aiming at solving nonstandard Markov decision problems with unknown models, the event-based optimization method is adopted for the design and analysis of reinforcement learing system and an event-based reinforcement learing (ERL) method will be systematically proposed. Then the theories, algorithms and typical applications of ERL will be comprehensively studied. The main research contents include the following three aspects: (1) based on the formalization of events, research on the fundamental models and algorithmic theories of ERL; (2) regarding the needs of practical engineering, propose a probabilistic fuzzy system based representation and reasoning methods for events, then focus on the study of fast iterative algorithms of ERL; (3) research on the applications of ERL in the large scale network optimization and coordination control of swarm robots. This project will be very important for the exploration of RL theories and algorithms with structural information and reasoning ability. It will also promote the application of ERL for the real optimal control problems with large scale space.

强化学习是实现智能系统的一项关键技术，利用问题的结构信息设计分层学习算法是克服复杂问题维数灾难、提高学习速度的有效方法。本项目拟以实际群机器人系统中的大规模空间优化控制问题为背景，将基于事件的优化方法引入到强化学习系统的设计与分析中，系统性的提出基于事件的强化学习(Event-based Reinforcement Learning, ERL)方法，以有效解决模型未知的非标准马尔科夫决策问题，并深入研究其理论、算法及典型应用，包括：①基于对事件的形式化表示，研究ERL基本模型和算法理论；②针对实际工程需求，提出基于概率模糊系统的事件表示和推理方法，研究实用的ERL快速迭代算法；③结合ERL理论方法创新，研究ERL在群机器人大规模网络优化及协调控制中的应用。本研究对探索具有结构特征和推理能力的强化学习理论和算法具有重要理论价值和现实意义，也将促进ERL在实际大规模空间优化控制问题中的应用。

项目摘要

本项目以针对大规模复杂学习任务的强化学习理论及算法为研究对象，以基于事件的优化方法、概率搜索策略和多智能体博弈为技术手段，面向群机器人系统以及量子鲁棒控制两类应用领域，系统研究了基于事件的强化学习理论、相关算法及应用，主要研究内容及成果包括三个方面。（一）研究了基于事件的强化学习及多智能体强化学习：（1）针对复杂学习任务的维数灾难问题，引入基于事件的优化方法，系统性的提出了基于事件的强化学习方法；（2）针对传统强化学习的搜索策略问题，提出了一种基于保真度的概率强化学习方法，有效提高了学习速度，同时避免陷入局部最优；（3）以智能仓储群机器人系统为应用背景，基于稀疏交互和知识迁移提出了一种新的多智能体强化学习方法，降低了所需计算资源，提高了学习速度。（二）研究了基于学习的群机器人协调控制与优化方法：（1）设计了一种基于概率模糊系统的事件描述及触发机制，并将基于事件的强化学习算法应用于移动机器人大规模室内导航控制中；（2）针对群机器人的实时定位与编队控制需求，设计了结合航位推测法、无线传感网络定位以及多维尺度分析的定位及编队控制方法；（3）提出了一种基于行为的群机器人协同避障及导航控制方法，提升了大规模群机器人协同控制的适应性及队形保持能力。（三）研究了基于学习的量子鲁棒控制方法：（1）采用基于保真度的概率强化学习设计了一种量子态转移控制方案，为量子态操纵提供了一种有效的无模型控制方法；（2）针对非同质量子系综的控制问题，提出了一种基于采样的学习控制方法；（3）采用改进的采样学习控制和量子测量操作，以逼近理论结果的准确性实现了量子系综分类。本项目研究结果对探索具有结构特征、推理能力和具有迁移学习机制的强化学习理论和算法具有重要理论价值和现实意义，也将促进强化学习在实际复杂控制问题（如群机器人协调控制、量子鲁棒控制）中的应用。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.16383/j.aas.2016.c150880

发表时间：2016

DOI：

发表时间：2020

DOI：

发表时间：2022

DOI：

发表时间：2018

DOI：10.3724/sp.j.1089.2022.19009

发表时间：2022

陈春林的其他基金

批准号：81000378

批准年份：2010

资助金额：20.00

项目类别：青年科学基金项目

批准号：81272585

批准年份：2012

资助金额：60.00

项目类别：面上项目

批准号：11402213

批准年份：2014

资助金额：28.00

项目类别：青年科学基金项目

批准号：51771200

批准年份：2017

资助金额：60.00

项目类别：面上项目

批准号：30970762

批准年份：2009

资助金额：33.00

项目类别：面上项目

批准号：81560584

批准年份：2015

资助金额：35.00

项目类别：地区科学基金项目

批准号：60805029

批准年份：2008

资助金额：19.00

项目类别：青年科学基金项目

批准号：41201108

批准年份：2012

资助金额：23.00

项目类别：青年科学基金项目

相似国自然基金

强化学习关键技术及其在机器人行为学习中的应用

批准号：60974050

批准年份：2009

负责人：程玉虎

学科分类：F0310

资助金额：31.00

项目类别：面上项目

策略搜索强化学习方法及在移动机器人运动控制中的应用

批准号：61603150

批准年份：2016

负责人：王滨

学科分类：F0306

资助金额：19.00

项目类别：青年科学基金项目

基于独立强化学习的多智能体协调优化方法及其在AGV系统中的应用

批准号：61903209

批准年份：2019

负责人：张震

学科分类：F0301

资助金额：25.00

项目类别：青年科学基金项目

基于交互强化学习的水下机器人自主学习与控制方法研究

批准号：51809246

批准年份：2018

负责人：李光亮

学科分类：E1102

资助金额：25.00

项目类别：青年科学基金项目

基于事件的强化学习及其在群机器人优化控制中的应用

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于SSVEP 直接脑控机器人方向和速度研究

端壁抽吸控制下攻角对压气机叶栅叶尖泄漏流动的影响

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于ESO的DGVSCMG双框架伺服系统不匹配扰动抑制

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

陈春林的其他基金

KLF4调控CRMP-2转录抑制视网膜神经节细胞轴突生长的分子机制及作用研究

局部晚期宫颈癌灶在体动脉血管网数字化三维模型的构建及应用

基于时间反转法的曲板高速冲击定位研究

四氧化三铁晶界结构与晶界磁学性能的原子尺度研究

数字化人子宫动脉血管网三维模型的构建

TREK-1-BDNF-mTOR 通路介导丁基苯酞快速抗抑郁的分子机制研究

分层式强化学习理论及其量子启发式算法研究

吉林省城市化地域格局演进机理与空间效应研究

相似国自然基金

基于事件的强化学习及其在群机器人优化控制中的应用

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于SSVEP 直接脑控机器人方向和速度研究

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

陈春林的其他基金

KLF4调控CRMP-2转录抑制视网膜神经节细胞轴突生长的分子机制及作用研究

局部晚期宫颈癌灶在体动脉血管网数字化三维模型的构建及应用

基于时间反转法的曲板高速冲击定位研究

四氧化三铁晶界结构与晶界磁学性能的原子尺度研究

数字化人子宫动脉血管网三维模型的构建

TREK-1-BDNF-mTOR 通路介导丁基苯酞快速抗抑郁的分子机制研究

分层式强化学习理论及其量子启发式算法研究

吉林省城市化地域格局演进机理与空间效应研究

相似国自然基金

端壁抽吸控制下攻角对压气机叶栅叶尖泄漏流动的影响

基于ESO的DGVSCMG双框架伺服系统不匹配扰动抑制