结构化增强学习(Hierarchical reinforcement learning: HRL)是求解大规模空间复杂优化决策问题的一类重要方法,具有广泛的应用前景,近年来成为机器学习与智能系统的研究热点。本项目以虚拟人运动规划面临的高维空间序贯优化决策问题为背景,研究结构化增强学习的快速策略迭代算法与自适应分层逼近算法,克服已有方法面临的高维连续状态空间逼近与学习泛化问题;结合HRL的理论方法创新,研究结构化增强学习在虚拟人运动规划中的应用,包括基于HRL的分层路径规划和自适应运动合成方法等。本项目的成果将有效解决现有HRL理论方法面临的算法计算效率与高维空间泛化性能等挑战问题,为虚拟人运动规划提供高效的学习优化手段,同时也将推动结构化增强学习在实际大规模优化控制问题中的应用。
本项目旨在研究结构化增强学习(HRL)的快速策略迭代和自适应分层逼近等新理论和新算法,提高结构化增强学习在高维连续空间的泛化性能与学习效率;在理论方法创新的基础上,针对虚拟人与操作环境交互过程中存在的复杂约束问题,探讨多约束条件下虚拟人运动规划的技术难点,为复杂环境的虚拟人路径规划提供理论基础和高效算法。主要研究成果包括:.(1)结构化增强学习的快速策略迭代理论和方法。为提高结构化增强学习中近似策略迭代算法的学习速度和收敛速率,分别提出了基于核的特征自动构造和基于流形的特征学习方法。首次在自适应评价在线学习中引入稀疏化核方法,实现了连续状态与行为空间的高效的在线增强学习算法。提出连续空间特征基构造的改进的图拉普拉斯方法,并且与一类称为表示策略迭代的近似策略迭代方法结合,提出一种新的流形增强学习算法,仿真和实验结果验证了该算法相比已有算法能够在多种参数设置条件下获得更好的学习性能。.(2)在已有工作的基础上,提出和完善了一种求解大规模或者连续空间问题的基于二叉树空间分解的分层近似策略迭代(HAPI)。从理论上分析得出,由于将初始的MDP分解成为具有二叉树结构的子MDP,再用API方法逼近局部近似最优策略,所以该方法可以降低复杂度并且保持较高的精度。通过对三个标准学习控制问题的试验,证明了在保持相同样本和基函数的条件下,HAPI方法与已有算法相比较,可以得到更好的近似最优策略。 (3)以虚拟维修应用中多约束条件下的虚拟人运动规划为目标,研究基于结构化增强学习的虚拟人分层运动规划理论框架。在该框架中,把运动规划问题描述为Markov过程模型,结合底层的RRT路径规划算法,通过结构化增强学习方法实现高维空间的虚拟人路径规划。.项目共发表论文22篇,12篇进入SCI检索,主要成果发表在IEEE Transactions on Neural Networks and Learning Systems, IEEE Transactions on Control Systems Technology等国际权威期刊,全部论文均进入EI检索源。项目负责人受邀担任国际期刊Information Sciences(IF=3.6)的Associate Editor和Int. J. of Adaptive Control and Signal Processing的Guest Editor
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
低轨卫星通信信道分配策略
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
DC规划的理论和算法研究及其在机器学习中的应用
结构化解析字典学习及其在压缩感知图像重构中的应用研究
均衡约束数学规划问题的几个算法及其在机器学习中的应用
结构化判别字典学习方法及其应用研究