基于逆向强化学习和人工智能的移动机器人自主学习方法研究

基本信息
批准号:61305121
项目类别:青年科学基金项目
资助金额:23.00
负责人:李德才
学科分类:
依托单位:中国科学院沈阳自动化研究所
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:钟华,崔金涛,李美林,霍本岩,褚亚奇
关键词:
自主学习逆向强化学习人工智能移动机器人
结项摘要

It is a difficult mission to realize autonomous behavior of mobile robots with complex environment. Hence, how to enhance the intelligence level of robots as well as its capability of autonomous behavior with uncertainness environment have significant theoretical value and practical meaning. Regarding the finite and uncertain demonstrators in the inverse reinforcement learning and the problems they might lead to, the project focus on the following aspects: 1) Applying machine learning methods, such as echo state network and extreme learning machine to establish reward function model. Then, combing state feature selection and modeling method by constructing appropriate penalty function and propose a novel approach for reward function representation. 2) For the uncertainness of the demonstrators, the influence of interference signal in the demonstrator trajectory can be restricted by employing appropriate likelihood function which is robust to noise and outliers. In this case, reward function with ideal demonstrator trajectories can be approximated by using suboptimal ones. 3) Based on the research contents 1) and 2), multi-agent inverse reinforcement learning method will be investigated in order to overcome the limited operational capability of single robot. This project combines the inverse reinforcement learning and artificial intelligence methods, and provides a new viewpoint and a new tool for autonomous learning of mobile robots with complex environment.

移动机器人在复杂环境下的自主运动往往十分困难。因此如何提升机器人的智能水平,增强其在不确定环境下的自主行为能力具有较强的理论价值与现实意义。本项目针对逆向强化学习在示教策略有限和不确定条件下可能导致的学习精度不高、计算效率低下等问题,对下列内容进行研究:1)采用回声状态网络、极端学习机等智能方法建立回报函数模型。在此基础上,根据模型结构建立适当的惩罚函数,将状态特征选择同建模算法相结合,提出全新的回报函数表示方法;2)针对示教策略的不确定性,通过引入对噪声和异常点具有鲁棒性的似然函数,实现对示教轨迹中干扰信号的识别和抑制。并进一步,根据非最优示教轨迹来逼近理想情况下的回报函数;3)在研究内容1)和2)的基础上,建立面向多自主体的逆向强化学习方法,以克服单个机器人工作能力有限的问题。本项目将逆向强化学习方法与人工智能相结合,为复杂环境下移动机器人的自主学习问题提供了新的思路和方法。

项目摘要

由于环境的复杂性,机器人的自主运动往往十分困难,因此迫切需要提升移动机器人的智能水平,增强其在不确定环境下的自主行为能力。本项目以基于逆向强化学习方法的移动机器人自主学习问题为核心,对其中的几个关键问题开展了研究工作。主要成果包括:提出采用互信息和极端学机,分析状态特征同回报函数之间的相关性,并进行选择。在此基础上,提出特征选择同回报函数估计相结合的建模方法,以降低模型求解的复杂度。提出基于卡尔曼滤波的储备池在线训练方法,以实现对干扰信号的自适应估计,并克服其对回报函数估计的影响。在此基础上,提出基于1范数正则项的模型结构优化方法,并通过构造适当的替代函数,使其适用于贝叶斯方法求解,实现模型参数的自适应估计。在上述研究成果的基础上,提出基于行为规则的通用型机器人自主学习框架。同时,在水面移动机器人平台上进行了实验,初步验证了理论研究成果的可行性与有效性。本项目将逆向强化学习方法与人工智能相结合,为复杂环境下移动机器人的自主学习问题提供了新的思路和方法。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
2

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
3

一种改进的多目标正余弦优化算法

一种改进的多目标正余弦优化算法

DOI:
发表时间:2019
4

面向工件表面缺陷的无监督域适应方法

面向工件表面缺陷的无监督域适应方法

DOI:
发表时间:2021
5

采用深度学习的铣刀磨损状态预测模型

采用深度学习的铣刀磨损状态预测模型

DOI:10.3969/j.issn.1004-132x.2020.17.009
发表时间:2020

李德才的其他基金

批准号:U1837206
批准年份:2018
资助金额:232.00
项目类别:联合基金项目
批准号:50075001
批准年份:2000
资助金额:22.00
项目类别:面上项目
批准号:51735006
批准年份:2017
资助金额:300.00
项目类别:重点项目
批准号:50875017
批准年份:2008
资助金额:35.00
项目类别:面上项目
批准号:59705004
批准年份:1997
资助金额:13.20
项目类别:青年科学基金项目
批准号:51375039
批准年份:2013
资助金额:80.00
项目类别:面上项目
批准号:60471004
批准年份:2004
资助金额:25.00
项目类别:面上项目

相似国自然基金

1

策略搜索强化学习方法及在移动机器人运动控制中的应用

批准号:61603150
批准年份:2016
负责人:王滨
学科分类:F0306
资助金额:19.00
项目类别:青年科学基金项目
2

基于近似多步模型的连续空间强化学习方法研究

批准号:61702055
批准年份:2017
负责人:钟珊
学科分类:F06
资助金额:25.00
项目类别:青年科学基金项目
3

基于重要性采样的并行离策略强化学习方法研究

批准号:61502329
批准年份:2015
负责人:傅启明
学科分类:F0605
资助金额:21.00
项目类别:青年科学基金项目
4

基于交互强化学习的水下机器人自主学习与控制方法研究

批准号:51809246
批准年份:2018
负责人:李光亮
学科分类:E1102
资助金额:25.00
项目类别:青年科学基金项目