基于经验的无人机增强学习控制问题研究

基本信息
批准号:61806217
项目类别:青年科学基金项目
资助金额:25.00
负责人:贾圣德
学科分类:
依托单位:中国人民解放军国防科技大学
批准年份:2018
结题年份:2021
起止时间:2019-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:王祥科,吴立珍,马兆伟,赵云云,余杨广,王亚静,刘维洲
关键词:
免模型学习策略梯度Bellman等式MDP策略迁移
结项摘要

With the increase of UAV missions, it is needed to have the control capability to adapt to environmental changes. Compared with the traditional model-based control methods, reinforcement learning provides an approach to handle unexpected environmental changes. However, the learning efficiency is too low to be used in on-line tasks. In order to solve this problem, we propose a control framework that combines the experience-based knowledge with reinforcement learning. The research includes three aspects: (1) We establish a behavior space for the problem of UAV control to reduce the dimension of the state space; (2) Based on the continuous-time Markov decision processes, we present an experience-based reinforcement learning algorithm to overcome the defect of low efficiency in online-learning; (3) We carry out UAV experiments to verify the proposed theories and algorithms in dynamic environments.

随着无人机任务范围的扩大,需要其具备适应环境变化的控制能力。相比有模型的传统控制方法,虽然无模型的增强学习控制方法为未预期环境变化提供解决途径,但现有方法存在着在线学习效率低等问题。为克服这一困难,本项目研究将经验知识与增强学习相结合的控制框架,具体研究内容叙述涵括三个方面:(1)建立无人机控制问题行为空间模型,实现状态空间的降维;(2)基于连续时间Markov决策过程,提出基于经验的增强学习算法,解决算法在线学习效率低的问题;(3)开展环境变化下无人机自适应飞行实验,验证项目所提理论与算法的有效性。

项目摘要

随着无人机任务范围的扩大,需要其具备适应环境变化的控制能力。相比有模型的传统控制方法,虽然无模型的增强学习控制方法为未预期环境变化提供解决途径,但现有方法存在着在线学习效率低等问题。为克服这一困难,本项目研究将经验知识与增强学习相结合的控制框架。.项目研究基于模型、策略等先验知识的增强学习控制方法,并应用于无人机飞行控制试验。 (1)提出了连续时间Markov决策过程的增强学习框架与算法,并在固定翼无人机的轨迹跟踪问题中进行了仿真;(2)项目提出了传统滑模控制模型与迭代学习相结合的控制方法,大大缩小了学习过程的周期迭代次数,在四旋翼实物实验中与PID方法对比可以将超调量缩小1倍,可用于无人机高精度的轨迹控制。(3)模仿人类操控无人机时不依赖与复杂动力学模型的事实,提出了结合近似线性模型和增强学习的方法对无人机等非线性系统进行控制,通过理论推导、仿真验证了方法的合理性。(4)通过Kriging模型将已知样本点信息作为经验知识来预测未知样本点的信息,提出一种将Kriging模型应用于增强学习值函数的拟合的算法,以解决使用常规增强学习算法时大量的训练时间和实验成本问题。.对期望轨迹的精确跟踪控制是无人机提高性能、扩展应用范围的关键技术。在该问题上传统方法多基于静态线性模型与大量人工调参,包括PID控制、前馈反馈控制、最优控制等,这些方法能够在设计工况下稳定运行,但其对工况与模型参数变化敏感,难以主动适应动态变化的环境和平台非线性特征。本项目是针对不确定性、模型泛化性和环境自适应性的控制方法,后续将应用于无人机对期望轨迹的精确跟踪控制问题的研究。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

货币政策与汇率制度对国际收支的影响研究

货币政策与汇率制度对国际收支的影响研究

DOI:
发表时间:2022

贾圣德的其他基金

相似国自然基金

1

基于增强学习的动态优化问题模型及算法研究

批准号:61562009
批准年份:2015
负责人:秦进
学科分类:F06
资助金额:36.00
项目类别:地区科学基金项目
2

经验映射机器学习

批准号:60603019
批准年份:2006
负责人:张莉
学科分类:F0201
资助金额:7.00
项目类别:青年科学基金项目
3

基于深度增强学习和技能学习的微装配机器人学习与控制研究

批准号:61673382
批准年份:2016
负责人:邢登鹏
学科分类:F0306
资助金额:63.00
项目类别:面上项目
4

组织从经验中学习的机理、关键问题和改进方法体系研究

批准号:70572005
批准年份:2005
负责人:陈国权
学科分类:G0204
资助金额:20.00
项目类别:面上项目