基于逆向强化学习和人工智能的移动机器人自主学习方法研究

基本信息
批准号:61305121
项目类别:青年科学基金项目
资助金额:23.00
负责人:李德才
学科分类:
依托单位:中国科学院沈阳自动化研究所
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:钟华,崔金涛,李美林,霍本岩,褚亚奇
关键词:
自主学习逆向强化学习人工智能移动机器人
结项摘要

It is a difficult mission to realize autonomous behavior of mobile robots with complex environment. Hence, how to enhance the intelligence level of robots as well as its capability of autonomous behavior with uncertainness environment have significant theoretical value and practical meaning. Regarding the finite and uncertain demonstrators in the inverse reinforcement learning and the problems they might lead to, the project focus on the following aspects: 1) Applying machine learning methods, such as echo state network and extreme learning machine to establish reward function model. Then, combing state feature selection and modeling method by constructing appropriate penalty function and propose a novel approach for reward function representation. 2) For the uncertainness of the demonstrators, the influence of interference signal in the demonstrator trajectory can be restricted by employing appropriate likelihood function which is robust to noise and outliers. In this case, reward function with ideal demonstrator trajectories can be approximated by using suboptimal ones. 3) Based on the research contents 1) and 2), multi-agent inverse reinforcement learning method will be investigated in order to overcome the limited operational capability of single robot. This project combines the inverse reinforcement learning and artificial intelligence methods, and provides a new viewpoint and a new tool for autonomous learning of mobile robots with complex environment.

移动机器人在复杂环境下的自主运动往往十分困难。因此如何提升机器人的智能水平,增强其在不确定环境下的自主行为能力具有较强的理论价值与现实意义。本项目针对逆向强化学习在示教策略有限和不确定条件下可能导致的学习精度不高、计算效率低下等问题,对下列内容进行研究:1)采用回声状态网络、极端学习机等智能方法建立回报函数模型。在此基础上,根据模型结构建立适当的惩罚函数,将状态特征选择同建模算法相结合,提出全新的回报函数表示方法;2)针对示教策略的不确定性,通过引入对噪声和异常点具有鲁棒性的似然函数,实现对示教轨迹中干扰信号的识别和抑制。并进一步,根据非最优示教轨迹来逼近理想情况下的回报函数;3)在研究内容1)和2)的基础上,建立面向多自主体的逆向强化学习方法,以克服单个机器人工作能力有限的问题。本项目将逆向强化学习方法与人工智能相结合,为复杂环境下移动机器人的自主学习问题提供了新的思路和方法。

项目摘要

由于环境的复杂性,机器人的自主运动往往十分困难,因此迫切需要提升移动机器人的智能水平,增强其在不确定环境下的自主行为能力。本项目以基于逆向强化学习方法的移动机器人自主学习问题为核心,对其中的几个关键问题开展了研究工作。主要成果包括:提出采用互信息和极端学机,分析状态特征同回报函数之间的相关性,并进行选择。在此基础上,提出特征选择同回报函数估计相结合的建模方法,以降低模型求解的复杂度。提出基于卡尔曼滤波的储备池在线训练方法,以实现对干扰信号的自适应估计,并克服其对回报函数估计的影响。在此基础上,提出基于1范数正则项的模型结构优化方法,并通过构造适当的替代函数,使其适用于贝叶斯方法求解,实现模型参数的自适应估计。在上述研究成果的基础上,提出基于行为规则的通用型机器人自主学习框架。同时,在水面移动机器人平台上进行了实验,初步验证了理论研究成果的可行性与有效性。本项目将逆向强化学习方法与人工智能相结合,为复杂环境下移动机器人的自主学习问题提供了新的思路和方法。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

新型树启发式搜索算法的机器人路径规划

新型树启发式搜索算法的机器人路径规划

DOI:10.3778/j.issn.1002-8331.1903-0411
发表时间:2020
2

结直肠癌免疫治疗的多模态影像及分子影像评估

结直肠癌免疫治疗的多模态影像及分子影像评估

DOI:10.13609/j.cnki.1000-0313.2022.04.019
发表时间:2022
3

智能煤矿建设路线与工程实践

智能煤矿建设路线与工程实践

DOI:10.13199/j.cnki.cst.2020.07.010
发表时间:2020
4

现代优化理论与应用

现代优化理论与应用

DOI:10.1360/SSM-2020-0035
发表时间:2020
5

空中交通延误预测研究综述

空中交通延误预测研究综述

DOI:10.12305/j.issn.1001-506x.2022.03.19
发表时间:2022

李德才的其他基金

批准号:U1837206
批准年份:2018
资助金额:232.00
项目类别:联合基金项目
批准号:50075001
批准年份:2000
资助金额:22.00
项目类别:面上项目
批准号:51735006
批准年份:2017
资助金额:300.00
项目类别:重点项目
批准号:50875017
批准年份:2008
资助金额:35.00
项目类别:面上项目
批准号:59705004
批准年份:1997
资助金额:13.20
项目类别:青年科学基金项目
批准号:51375039
批准年份:2013
资助金额:80.00
项目类别:面上项目
批准号:60471004
批准年份:2004
资助金额:25.00
项目类别:面上项目

相似国自然基金

1

策略搜索强化学习方法及在移动机器人运动控制中的应用

批准号:61603150
批准年份:2016
负责人:王滨
学科分类:F0306
资助金额:19.00
项目类别:青年科学基金项目
2

基于近似多步模型的连续空间强化学习方法研究

批准号:61702055
批准年份:2017
负责人:钟珊
学科分类:F06
资助金额:25.00
项目类别:青年科学基金项目
3

基于重要性采样的并行离策略强化学习方法研究

批准号:61502329
批准年份:2015
负责人:傅启明
学科分类:F0605
资助金额:21.00
项目类别:青年科学基金项目
4

基于交互强化学习的水下机器人自主学习与控制方法研究

批准号:51809246
批准年份:2018
负责人:李光亮
学科分类:E1102
资助金额:25.00
项目类别:青年科学基金项目