It is a difficult mission to realize autonomous behavior of mobile robots with complex environment. Hence, how to enhance the intelligence level of robots as well as its capability of autonomous behavior with uncertainness environment have significant theoretical value and practical meaning. Regarding the finite and uncertain demonstrators in the inverse reinforcement learning and the problems they might lead to, the project focus on the following aspects: 1) Applying machine learning methods, such as echo state network and extreme learning machine to establish reward function model. Then, combing state feature selection and modeling method by constructing appropriate penalty function and propose a novel approach for reward function representation. 2) For the uncertainness of the demonstrators, the influence of interference signal in the demonstrator trajectory can be restricted by employing appropriate likelihood function which is robust to noise and outliers. In this case, reward function with ideal demonstrator trajectories can be approximated by using suboptimal ones. 3) Based on the research contents 1) and 2), multi-agent inverse reinforcement learning method will be investigated in order to overcome the limited operational capability of single robot. This project combines the inverse reinforcement learning and artificial intelligence methods, and provides a new viewpoint and a new tool for autonomous learning of mobile robots with complex environment.
移动机器人在复杂环境下的自主运动往往十分困难。因此如何提升机器人的智能水平,增强其在不确定环境下的自主行为能力具有较强的理论价值与现实意义。本项目针对逆向强化学习在示教策略有限和不确定条件下可能导致的学习精度不高、计算效率低下等问题,对下列内容进行研究:1)采用回声状态网络、极端学习机等智能方法建立回报函数模型。在此基础上,根据模型结构建立适当的惩罚函数,将状态特征选择同建模算法相结合,提出全新的回报函数表示方法;2)针对示教策略的不确定性,通过引入对噪声和异常点具有鲁棒性的似然函数,实现对示教轨迹中干扰信号的识别和抑制。并进一步,根据非最优示教轨迹来逼近理想情况下的回报函数;3)在研究内容1)和2)的基础上,建立面向多自主体的逆向强化学习方法,以克服单个机器人工作能力有限的问题。本项目将逆向强化学习方法与人工智能相结合,为复杂环境下移动机器人的自主学习问题提供了新的思路和方法。
由于环境的复杂性,机器人的自主运动往往十分困难,因此迫切需要提升移动机器人的智能水平,增强其在不确定环境下的自主行为能力。本项目以基于逆向强化学习方法的移动机器人自主学习问题为核心,对其中的几个关键问题开展了研究工作。主要成果包括:提出采用互信息和极端学机,分析状态特征同回报函数之间的相关性,并进行选择。在此基础上,提出特征选择同回报函数估计相结合的建模方法,以降低模型求解的复杂度。提出基于卡尔曼滤波的储备池在线训练方法,以实现对干扰信号的自适应估计,并克服其对回报函数估计的影响。在此基础上,提出基于1范数正则项的模型结构优化方法,并通过构造适当的替代函数,使其适用于贝叶斯方法求解,实现模型参数的自适应估计。在上述研究成果的基础上,提出基于行为规则的通用型机器人自主学习框架。同时,在水面移动机器人平台上进行了实验,初步验证了理论研究成果的可行性与有效性。本项目将逆向强化学习方法与人工智能相结合,为复杂环境下移动机器人的自主学习问题提供了新的思路和方法。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
面向工件表面缺陷的无监督域适应方法
采用深度学习的铣刀磨损状态预测模型
策略搜索强化学习方法及在移动机器人运动控制中的应用
基于近似多步模型的连续空间强化学习方法研究
基于重要性采样的并行离策略强化学习方法研究
基于交互强化学习的水下机器人自主学习与控制方法研究