策略搜索强化学习方法及在移动机器人运动控制中的应用

基本信息
批准号:61603150
项目类别:青年科学基金项目
资助金额:19.00
负责人:王滨
学科分类:
依托单位:济南大学
批准年份:2016
结题年份:2019
起止时间:2017-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:赵钦君,徐元,乔佳,冯庆仑,杨晨旭
关键词:
移动机器人控制强化学习数据驱动控制策略搜索自适应动态规划
结项摘要

With the popularity of the concept of intelligent manufacturing currently, the intelligent level of robots and other equipment receives extensive attention, which puts forward new requirements for the design of the control system. Policy search reinforcement learning is an effective intelligent control approach for real-world complex systems such as robots, and is the research focus in the field of intelligent control for robotics, showing broad application prospects. Therefore, our project aims to study the key issues of policy search reinforcement learning method, improve the efficiency of policy search and solve the optimal control problem for a class of higher-dimensional complex continuous system. In theory and methodology, adaptive learning rate for policy gradients will be proposed to avoid the convergence problem causing by constant learning rate. Importance sampling and experience replay will effectively reduce data sampling cost in expectation maximization based policy search methods and improve the data efficiency. Optimal or suboptimal controllers will be computed by reinforcement learning with its adaptive learning ability, and theoretical analysis of convergence and system stability will be given. In experiment and application, trailer mobile robot will be the main research objective of the proposed policy search reinforcement learning methods. Validation experiments and comparative analysis for typical motion control scenarios will be given, which will lay the foundation of intelligent robot application.

当前随着智能制造概念的普及,机器人等设备的智能化水平备受关注,对其控制系统的设计提出了新的要求。策略搜索强化学习是对机器人等复杂系统进行智能控制的有效方法,是当前机器人智能控制领域的研究热点,具有广阔的应用前景。本项目拟对策略搜索强化学习方法的关键问题进行研究,提高策略搜索的效率,解决一类高维复杂连续系统的最优控制问题。在理论和方法方面,提出策略梯度的学习率参数自适应调节的方法,避免固定学习率使策略梯度方法收敛困难的问题;采用重要采样和经验回放技术有效降低期望最大化策略搜索方法的数据采样成本,改善策略搜索的数据利用效率;借助强化学习的自适应学习能力实现最优或近似最优控制的方法,并给出收敛性和系统稳定性的理论分析。在实验和应用方面,以拖挂式移动机器人作为主要研究目标,对所提出的策略搜索强化学习方法进行典型运动控制场景下的实验验证和比较分析,奠定智能机器人的应用基础。

项目摘要

当前深度强化学习理论方法推动了人工智能在机器人控制领域的快速发展。策略搜索强化学习是对机器人等复杂系统进行智能控制的有效方法,是当前机器人智能控制领域的研究热点,具有广阔的应用前景。本项目对策略搜索强化学习方法的关键问题进行研究,首先针对车辆的智能巡航控制问题,提出了一种基于经验回放的自适应动态规划算法,能够有效利用历史经验数据提高控制策略的学习效率和成功率,并从理论上证明了所提出的算法能够以一定界限收敛到最优权重,通过实验验证了所提算法在自适应巡航控制问题中的有效性。本项目针对移动机器人的运动控制问题,以带有N个拖车的拖挂式移动机器人为例,提出了一系列正向路径规划和反向跟踪控制算法,从理论上证明了系统的渐进稳定性,解决了拖挂式移动机器人在复杂环境下的运动控制问题。此外,本项目结合最新的深度强化学习算法DDPG,解决了拖挂式移动机器人在连续动作空间中的路径规划问题。本项目在强化学习和移动机器人运动控制问题中提出了有效的解决方案,发表相关论文5篇,获得专利1项。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

DOI:10.16085/j.issn.1000-6613.2022-0221
发表时间:2022
4

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020
5

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

DOI:
发表时间:2020

王滨的其他基金

批准号:30270442
批准年份:2002
资助金额:7.00
项目类别:面上项目
批准号:30470551
批准年份:2004
资助金额:24.00
项目类别:面上项目
批准号:30470518
批准年份:2004
资助金额:21.00
项目类别:面上项目
批准号:81171303
批准年份:2011
资助金额:58.00
项目类别:面上项目
批准号:61103200
批准年份:2011
资助金额:21.00
项目类别:青年科学基金项目
批准号:61402459
批准年份:2014
资助金额:27.00
项目类别:青年科学基金项目
批准号:81600331
批准年份:2016
资助金额:17.50
项目类别:青年科学基金项目
批准号:31602133
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:51609219
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:31471822
批准年份:2014
资助金额:80.00
项目类别:面上项目

相似国自然基金

1

针对大规模环境下复杂任务的策略搜索强化学习方法研究

批准号:61502339
批准年份:2015
负责人:赵婷婷
学科分类:F06
资助金额:20.00
项目类别:青年科学基金项目
2

Spiking神经网络在移动机器人感知及控制中的应用研究

批准号:61175059
批准年份:2011
负责人:王秀青
学科分类:F0601
资助金额:58.00
项目类别:面上项目
3

前馈式神经网络的非梯度学习方法及在智能控制中的应用

批准号:69974013
批准年份:1999
负责人:冯英俊
学科分类:F0301
资助金额:12.00
项目类别:面上项目
4

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

批准号:61305121
批准年份:2013
负责人:李德才
学科分类:F0306
资助金额:23.00
项目类别:青年科学基金项目