Reinforcement learning is one of the key techniques to implement intelligent systems. It is an effective way to overcome the curse of dimensionality and speed up learning by designing hierarchical learning algorithms using the structural information of the problems. This project will take the large scale optimal control problems in the real swarm robot systems as the background of applications. Aiming at solving nonstandard Markov decision problems with unknown models, the event-based optimization method is adopted for the design and analysis of reinforcement learing system and an event-based reinforcement learing (ERL) method will be systematically proposed. Then the theories, algorithms and typical applications of ERL will be comprehensively studied. The main research contents include the following three aspects: (1) based on the formalization of events, research on the fundamental models and algorithmic theories of ERL; (2) regarding the needs of practical engineering, propose a probabilistic fuzzy system based representation and reasoning methods for events, then focus on the study of fast iterative algorithms of ERL; (3) research on the applications of ERL in the large scale network optimization and coordination control of swarm robots. This project will be very important for the exploration of RL theories and algorithms with structural information and reasoning ability. It will also promote the application of ERL for the real optimal control problems with large scale space.
强化学习是实现智能系统的一项关键技术,利用问题的结构信息设计分层学习算法是克服复杂问题维数灾难、提高学习速度的有效方法。本项目拟以实际群机器人系统中的大规模空间优化控制问题为背景,将基于事件的优化方法引入到强化学习系统的设计与分析中,系统性的提出基于事件的强化学习(Event-based Reinforcement Learning, ERL)方法,以有效解决模型未知的非标准马尔科夫决策问题,并深入研究其理论、算法及典型应用,包括:①基于对事件的形式化表示,研究ERL基本模型和算法理论;②针对实际工程需求,提出基于概率模糊系统的事件表示和推理方法,研究实用的ERL快速迭代算法;③结合ERL理论方法创新,研究ERL在群机器人大规模网络优化及协调控制中的应用。本研究对探索具有结构特征和推理能力的强化学习理论和算法具有重要理论价值和现实意义,也将促进ERL在实际大规模空间优化控制问题中的应用。
本项目以针对大规模复杂学习任务的强化学习理论及算法为研究对象,以基于事件的优化方法、概率搜索策略和多智能体博弈为技术手段,面向群机器人系统以及量子鲁棒控制两类应用领域,系统研究了基于事件的强化学习理论、相关算法及应用,主要研究内容及成果包括三个方面。(一)研究了基于事件的强化学习及多智能体强化学习:(1)针对复杂学习任务的维数灾难问题,引入基于事件的优化方法,系统性的提出了基于事件的强化学习方法;(2)针对传统强化学习的搜索策略问题,提出了一种基于保真度的概率强化学习方法,有效提高了学习速度,同时避免陷入局部最优;(3)以智能仓储群机器人系统为应用背景,基于稀疏交互和知识迁移提出了一种新的多智能体强化学习方法,降低了所需计算资源,提高了学习速度。(二)研究了基于学习的群机器人协调控制与优化方法:(1)设计了一种基于概率模糊系统的事件描述及触发机制,并将基于事件的强化学习算法应用于移动机器人大规模室内导航控制中;(2)针对群机器人的实时定位与编队控制需求,设计了结合航位推测法、无线传感网络定位以及多维尺度分析的定位及编队控制方法;(3)提出了一种基于行为的群机器人协同避障及导航控制方法,提升了大规模群机器人协同控制的适应性及队形保持能力。(三)研究了基于学习的量子鲁棒控制方法:(1)采用基于保真度的概率强化学习设计了一种量子态转移控制方案,为量子态操纵提供了一种有效的无模型控制方法;(2)针对非同质量子系综的控制问题,提出了一种基于采样的学习控制方法;(3)采用改进的采样学习控制和量子测量操作,以逼近理论结果的准确性实现了量子系综分类。本项目研究结果对探索具有结构特征、推理能力和具有迁移学习机制的强化学习理论和算法具有重要理论价值和现实意义,也将促进强化学习在实际复杂控制问题(如群机器人协调控制、量子鲁棒控制)中的应用。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
强化学习关键技术及其在机器人行为学习中的应用
策略搜索强化学习方法及在移动机器人运动控制中的应用
基于独立强化学习的多智能体协调优化方法及其在AGV系统中的应用
基于交互强化学习的水下机器人自主学习与控制方法研究