复杂环境中基于强化学习的无人机路径规划研究

基本信息
批准号:61903372
项目类别:青年科学基金项目
资助金额:26.00
负责人:左磊
学科分类:
依托单位:中国人民解放军国防科技大学
批准年份:2019
结题年份:2022
起止时间:2020-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:
关键词:
强化学习分层路径规划无人机状态特征表示
结项摘要

Reinforcement learning (RL) is one class of important methods for solving complex sequential decision making problems. RL has becoming one of the research hotspots in machine learning and widely studied in a variety of areas, including robotics, control engineering, games and so on. However, it is still difficult for RL to solve problems with large or continuous state and action spaces, which limits the applications of RL in real engineering problems. This project intends to focus on the path planning of unmanned aerial vehicles (UAVs) using reinforcement learning in complex environments and aims to make innovation and breakthrough on state feature representation, online RL algorithm and generalization ability of RL through: 1) proposing a state feature representation method using neural network for reinforcement learning with continuous spaces; 2) proposing an online reinforcement learning algorithm with approximate policy iteration to improve the efficiency of reinforcement learning; 3)proposing a hierarchical path planning method using reinforcement learning for UAVs in complex environments; 4) designing and achieving a UAV system to evaluate the performance of the proposed hierarchical path planning method using reinforcement learning. The research of this project will play a significant role in improving the efficiency of reinforcement learning in continuous spaces and expanding the applications of reinforcement learning in real problems.

强化学习是求解复杂序贯决策优化问题的一类重要方法,具有广泛的应用前景,近年来成为机器学习的研究热点,然而,大规模连续空间中的状态特征表示与算法效率问题仍制约着强化学习在实际应用中的推广。本项目以复杂环境中基于强化学习的无人机路径规划问题为背景,研究强化学习在连续空间中的状态特征表示方法和快速在线学习算法,克服现有方法面临的连续空间逼近与泛化能力问题;在无人机路径规划问题中引入分层规划机制,应用强化学习方法提高规划效率和规划结果的合理性,并对所提方法进行仿真实验验证。本项目的成果将有利于解决强化学习现有方法面临的连续空间中算法计算效率和泛化性能受限等问题,促进强化学习在实际问题中的应用推广,同时为无人机路径规划提供高效的学习优化方法,对于提高无人机自主学习能力具有十分重要的理论意义和实用价值。

项目摘要

强化学习可通过与环境交互求解最优控制问题,是机器学习的研究热点之一,近年来得到广泛关注。目前强化学习面临的一大挑战是大规模或连续状态空间中的快速求解问题。本项目以复杂环境中基于强化学习的无人机路径规划为背景,研究大规模或连续状态空间中强化学习的状态特征表示方法和快速学习算法,克服现有方法面临的连续空间逼近与泛化能力问题,并将强化学习方法应用于无人机路径规划,提升无人机的自主学习能力。项目提出了一种基于随机神经元的状态特征表示方法,减少了需要人为调整优化的参数,提高了状态特征表示效率;提出了一种基于超限学习机的近似策略迭代(ELM-API)算法,提高了算法学习效率,理论分析与仿真实验结果表明该算法具有良好的特征表示能力和泛化能力;提出了一种基于策略迭代强化学习的无人机分层路径规划方法,使得路径规划模块能够处理一定的环境不确定性,提高了无人机对环境的自适应能力;构建了一个用于路径规划算法实验验证的无人机测试系统,很好支撑了强化学习的应用研究。本项目成果提升了强化学习在解决大规模或连续空间问题时的算法效率,对于提高无人机的自主性具有重要学术意义和应用价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020
2

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
3

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

DOI:
发表时间:2018
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应

水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应

DOI:10.3864/j.issn.0578-1752.2019.03.004
发表时间:2019

左磊的其他基金

批准号:61501342
批准年份:2015
资助金额:21.00
项目类别:青年科学基金项目
批准号:51909008
批准年份:2019
资助金额:27.00
项目类别:青年科学基金项目
批准号:61871307
批准年份:2018
资助金额:67.00
项目类别:面上项目

相似国自然基金

1

基于中轴骨架的复杂水下环境中水下机器人健壮路径规划方法

批准号:61702074
批准年份:2017
负责人:朱厚盛
学科分类:F06
资助金额:19.00
项目类别:青年科学基金项目
2

三维复杂地形环境下基于无人机追逃问题的航路规划方法研究

批准号:61503255
批准年份:2015
负责人:梁宵
学科分类:F0306
资助金额:20.00
项目类别:青年科学基金项目
3

车辆-无人机协同的调度和路径规划联合设计研究

批准号:61872415
批准年份:2018
负责人:胡梦兰
学科分类:F0208
资助金额:64.00
项目类别:面上项目
4

复杂海洋环境下面向目标搜索任务的AUV路径规划方法研究

批准号:51909252
批准年份:2019
负责人:姚鹏
学科分类:E1102
资助金额:27.00
项目类别:青年科学基金项目