结构化增强学习及其在虚拟人运动规划中的应用

基本信息

批准号：61075072

项目类别：面上项目

资助金额：30.00

负责人：徐昕

学科分类：

依托单位：中国人民解放军国防科技大学

批准年份：2010

结题年份：2013

起止时间：2011-01-01 - 2013-12-31

项目状态：已结题

项目参与者：李焱,贺汉根,史美萍,孙振平,王维,刘春明,吴军,左磊

关键词：

运动规划增强学习虚拟人机器学习

结项摘要

结构化增强学习(Hierarchical reinforcement learning: HRL)是求解大规模空间复杂优化决策问题的一类重要方法，具有广泛的应用前景,近年来成为机器学习与智能系统的研究热点。本项目以虚拟人运动规划面临的高维空间序贯优化决策问题为背景，研究结构化增强学习的快速策略迭代算法与自适应分层逼近算法，克服已有方法面临的高维连续状态空间逼近与学习泛化问题；结合HRL的理论方法创新，研究结构化增强学习在虚拟人运动规划中的应用，包括基于HRL的分层路径规划和自适应运动合成方法等。本项目的成果将有效解决现有HRL理论方法面临的算法计算效率与高维空间泛化性能等挑战问题，为虚拟人运动规划提供高效的学习优化手段，同时也将推动结构化增强学习在实际大规模优化控制问题中的应用。

项目摘要

本项目旨在研究结构化增强学习(HRL)的快速策略迭代和自适应分层逼近等新理论和新算法，提高结构化增强学习在高维连续空间的泛化性能与学习效率；在理论方法创新的基础上，针对虚拟人与操作环境交互过程中存在的复杂约束问题，探讨多约束条件下虚拟人运动规划的技术难点，为复杂环境的虚拟人路径规划提供理论基础和高效算法。主要研究成果包括：.(1)结构化增强学习的快速策略迭代理论和方法。为提高结构化增强学习中近似策略迭代算法的学习速度和收敛速率，分别提出了基于核的特征自动构造和基于流形的特征学习方法。首次在自适应评价在线学习中引入稀疏化核方法，实现了连续状态与行为空间的高效的在线增强学习算法。提出连续空间特征基构造的改进的图拉普拉斯方法，并且与一类称为表示策略迭代的近似策略迭代方法结合，提出一种新的流形增强学习算法，仿真和实验结果验证了该算法相比已有算法能够在多种参数设置条件下获得更好的学习性能。.(2)在已有工作的基础上，提出和完善了一种求解大规模或者连续空间问题的基于二叉树空间分解的分层近似策略迭代(HAPI)。从理论上分析得出，由于将初始的MDP分解成为具有二叉树结构的子MDP，再用API方法逼近局部近似最优策略，所以该方法可以降低复杂度并且保持较高的精度。通过对三个标准学习控制问题的试验，证明了在保持相同样本和基函数的条件下，HAPI方法与已有算法相比较，可以得到更好的近似最优策略。 (3)以虚拟维修应用中多约束条件下的虚拟人运动规划为目标，研究基于结构化增强学习的虚拟人分层运动规划理论框架。在该框架中，把运动规划问题描述为Markov过程模型，结合底层的RRT路径规划算法，通过结构化增强学习方法实现高维空间的虚拟人路径规划。.项目共发表论文22篇，12篇进入SCI检索，主要成果发表在IEEE Transactions on Neural Networks and Learning Systems, IEEE Transactions on Control Systems Technology等国际权威期刊，全部论文均进入EI检索源。项目负责人受邀担任国际期刊Information Sciences(IF=3.6)的Associate Editor和Int. J. of Adaptive Control and Signal Processing的Guest Editor

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.3778/j.issn.1002-8331.1903-0411

发表时间：2020

DOI：10.19328/j.cnki.2096-8655.2022.02.002

发表时间：2022

DOI：10.1360/SSM-2020-0035

发表时间：2020

DOI：10.13973/j.cnki.robot.210412

发表时间：2022

DOI：10.12305/j.issn.1001-506x.2022.03.19

发表时间：2022

徐昕的其他基金

批准号：51705121

批准年份：2017

资助金额：25.00

项目类别：青年科学基金项目

批准号：60303012

批准年份：2003

资助金额：23.00

项目类别：青年科学基金项目

批准号：60774076

批准年份：2007

资助金额：25.00

项目类别：面上项目

批准号：81900487

批准年份：2019

资助金额：21.00

项目类别：青年科学基金项目

批准号：10774126

批准年份：2007

资助金额：36.00

项目类别：面上项目

批准号：81370197

批准年份：2013

资助金额：70.00

项目类别：面上项目

批准号：U1564214

批准年份：2015

资助金额：228.00

项目类别：联合基金项目

批准号：29403024

批准年份：1994

资助金额：6.00

项目类别：青年科学基金项目

批准号：41875068

批准年份：2018

资助金额：62.00

项目类别：面上项目

批准号：41505046

批准年份：2015

资助金额：21.00

项目类别：青年科学基金项目

批准号：21133004

批准年份：2011

资助金额：280.00

项目类别：重点项目

批准号：91027044

批准年份：2010

资助金额：280.00

项目类别：重大研究计划

批准号：29973031

批准年份：1999

资助金额：13.00

项目类别：面上项目

批准号：21903083

批准年份：2019

资助金额：26.00

项目类别：青年科学基金项目

相似国自然基金

DC规划的理论和算法研究及其在机器学习中的应用

批准号：11871128

批准年份：2018

负责人：吴至友

学科分类：A0405

资助金额：55.00

项目类别：面上项目

结构化解析字典学习及其在压缩感知图像重构中的应用研究

批准号：61803096

批准年份：2018

负责人：李珍妮

学科分类：F0310

资助金额：25.00

项目类别：青年科学基金项目

均衡约束数学规划问题的几个算法及其在机器学习中的应用

批准号：11761014

批准年份：2017

负责人：陈玉

学科分类：A0405

资助金额：36.00

项目类别：地区科学基金项目

结构化判别字典学习方法及其应用研究

批准号：61272331

批准年份：2012

负责人：向世明

学科分类：F0605

资助金额：82.00

项目类别：面上项目

结构化增强学习及其在虚拟人运动规划中的应用

{{i.achievement_title}}

暂无此项成果

其他相关文献

新型树启发式搜索算法的机器人路径规划

"多对多"模式下GEO卫星在轨加注任务规划

现代优化理论与应用

基于自适应干扰估测器的协作机器人关节速度波动抑制方法

空中交通延误预测研究综述

徐昕的其他基金

基于频率联动双飞秒光纤光频梳的表面形貌测量研究

基于增强学习的自适应入侵检测方法研究

基于核的增强学习与近似动态规划方法研究

LGG通过GLP-1抑制肠上皮内淋巴细胞介导的肠黏膜低度炎症在PI-IBS中的作用及机制研究

弱相互作用体系的密度泛函方法研究

GCN2对心源性运动猝死病理机制的影响与调控

智能汽车人机交互机理与人机共驾技术

氧化物及其负载金属表面吸附的簇模型方法研究

方向性切变基流下的地形重力波动量传输及参数化研究

地形重力波非局地拖曳理论研究

能源和环保催化剂理性设计的科学基础

自组装的理论与模拟

合成气制甲醇、高醇催化反应的理论研究

化学激光条件下氢原子和溴分子反应的态－态量子动力学研究

相似国自然基金