基于交互强化学习的水下机器人自主学习与控制方法研究

基本信息
批准号:51809246
项目类别:青年科学基金项目
资助金额:25.00
负责人:李光亮
学科分类:
依托单位:中国海洋大学
批准年份:2018
结题年份:2021
起止时间:2019-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:冯晨,沙启鑫,宋艳,王殿蕊,朱越美,李凯歌
关键词:
强化学习自主决策自主控制水下机器人
结项摘要

Existing AUVs are not real autonomous and generally confined to pre-planning or pre-programmed task patterns. Research shows that traditional reinforcement learning methods can improve the autonomy of AUV via online autonomous learning, but need a large number of samples and learn slowly. Recently, robot learning methods such as learning from demonstration were employed to speed up AUV learning with human experience and knowledge. However, this can only replicate the ability of operation in the demonstration to the greatest extent, and cannot improve the autonomy of AUV. In this project, we plan to use interactive reinforcement learning method to accelerate the autonomous learning of AUV by formulating the experience and knowledge of designers and non-technical personnel in the form of reward signal to train AUV offline. The delay of reward signals will be processed and supervised learning algorithms will be applied to nonlinear modeling of reward signals, to fully extract useful information from reward signals and further speed up AUV learning. We further propose to combine the human reward signal with the environmental reward signal in traditional reinforcement learning, and adopt reinforcement learning technology with dual neural network representations to improve the control strategy of AUV through online learning, so as to cope with the uncertainty of marine environment. The research results of this project will be of great theoretical and practical significance to improve the autonomy of AUV.

现存的AUV通常不具备很好的自主性,普遍局限于预规划或预编程任务模式。研究表明,传统强化学习方法可以通过在线自主学习提高AUV的自主性,但需要大量的样本且学习速度缓慢。近来,研究人员采用示范学习等机器人学习方法利用人的经验知识加速AUV的学习,但这只能最大程度地复制示范中操作任务的能力,不能提高AUV自主性。本项目拟采用最新的交互强化学习方法,将设计者和非技术人员的经验知识以奖赏信号的形式离线训练AUV,加速AUV自主学习;提出对奖赏信号的延迟特性进行处理和采用监督学习算法对奖赏信号进行非线性建模,充分提取奖赏信号中的有用信息,进一步加快AUV学习速度;提出将人的奖赏信号与传统强化学习中的环境奖赏信号结合,并采用基于双神经网络的强化学习技术通过在线自主学习改进AUV控制策略,以应对海洋环境的不确定性。本项目的研究成果对提高AUV自主性具有重要的理论与实践意义。

项目摘要

现存的AUV通常不具备很好的自主性,普遍局限于预规划或预编程任务模式。研究表明,传统强化学习方法可以通过在线自主学习提高AUV的自主性,但需要大量的样本且学习速度缓慢。近来,研究人员采用示范学习等机器人学习方法利用人的经验知识加速AUV的学习,但只能最大程度地复制示范中操作任务的能力,不能提高AUV自主性。本项目研究采用最新的深度交互强化学习方法,将设计者和非技术人员的经验知识以奖赏信号的形式离线训练AUV,加速AUV自主学习,通过处理人的奖赏延迟特性并进行非线性建模,充分提取奖赏信号中的有用信息,进一步加快AUV学习速度,最后将人的奖赏信号与传统强化学习中的环境奖赏信号结合,并采用基于双神经网络的强化学习技术通过在线自主学习改进 AUV控制策略,以应对海洋环境的不确定性。通过在Gazebo上搭建基于实验室AUV的仿真平台并设置路径跟踪和路径规划任务对提出的方法进行验证,实验结果表明与传统强化学习方法相比,深度交互强化学习方法可以使AUV更快地获得良好的控制策略,结合人的奖赏与环境奖赏可以进一步提高控制策略的收敛速度。况且,深度交互强化学习方法获得的控制策略能够比传统强化学习方法更好地适应新的不同的任务环境。除此以外,我们的实验表明连续控制比离散控制可以获得更好的控制精度和效果。本项目的研究成果对提高AUV自主性具有重要的理论与实践意义。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
2

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

DOI:
发表时间:2020
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

DOI:
发表时间:2018
5

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022

李光亮的其他基金

批准号:28670320
批准年份:1986
资助金额:2.50
项目类别:面上项目
批准号:69673021
批准年份:1996
资助金额:10.00
项目类别:面上项目

相似国自然基金

1

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

批准号:61305121
批准年份:2013
负责人:李德才
学科分类:F0306
资助金额:23.00
项目类别:青年科学基金项目
2

基于深度强化学习的服务机器人智能感知与自主运动研究

批准号:61873200
批准年份:2018
负责人:辛菁
学科分类:F0307
资助金额:63.00
项目类别:面上项目
3

动态交互环境下基于安全学习的自主目标跟踪方法

批准号:61903084
批准年份:2019
负责人:陆科林
学科分类:F0310
资助金额:27.00
项目类别:青年科学基金项目
4

基于示教与自主学习的机器人类人技能学习关键技术研究

批准号:61906123
批准年份:2019
负责人:谷也
学科分类:F0608
资助金额:24.00
项目类别:青年科学基金项目