结构化增强学习及其在虚拟人运动规划中的应用

基本信息
批准号:61075072
项目类别:面上项目
资助金额:30.00
负责人:徐昕
学科分类:
依托单位:中国人民解放军国防科技大学
批准年份:2010
结题年份:2013
起止时间:2011-01-01 - 2013-12-31
项目状态: 已结题
项目参与者:李焱,贺汉根,史美萍,孙振平,王维,刘春明,吴军,左磊
关键词:
运动规划增强学习虚拟人机器学习
结项摘要

结构化增强学习(Hierarchical reinforcement learning: HRL)是求解大规模空间复杂优化决策问题的一类重要方法,具有广泛的应用前景,近年来成为机器学习与智能系统的研究热点。本项目以虚拟人运动规划面临的高维空间序贯优化决策问题为背景,研究结构化增强学习的快速策略迭代算法与自适应分层逼近算法,克服已有方法面临的高维连续状态空间逼近与学习泛化问题;结合HRL的理论方法创新,研究结构化增强学习在虚拟人运动规划中的应用,包括基于HRL的分层路径规划和自适应运动合成方法等。本项目的成果将有效解决现有HRL理论方法面临的算法计算效率与高维空间泛化性能等挑战问题,为虚拟人运动规划提供高效的学习优化手段,同时也将推动结构化增强学习在实际大规模优化控制问题中的应用。

项目摘要

本项目旨在研究结构化增强学习(HRL)的快速策略迭代和自适应分层逼近等新理论和新算法,提高结构化增强学习在高维连续空间的泛化性能与学习效率;在理论方法创新的基础上,针对虚拟人与操作环境交互过程中存在的复杂约束问题,探讨多约束条件下虚拟人运动规划的技术难点,为复杂环境的虚拟人路径规划提供理论基础和高效算法。主要研究成果包括:.(1)结构化增强学习的快速策略迭代理论和方法。为提高结构化增强学习中近似策略迭代算法的学习速度和收敛速率,分别提出了基于核的特征自动构造和基于流形的特征学习方法。首次在自适应评价在线学习中引入稀疏化核方法,实现了连续状态与行为空间的高效的在线增强学习算法。提出连续空间特征基构造的改进的图拉普拉斯方法,并且与一类称为表示策略迭代的近似策略迭代方法结合,提出一种新的流形增强学习算法,仿真和实验结果验证了该算法相比已有算法能够在多种参数设置条件下获得更好的学习性能。.(2)在已有工作的基础上,提出和完善了一种求解大规模或者连续空间问题的基于二叉树空间分解的分层近似策略迭代(HAPI)。从理论上分析得出,由于将初始的MDP分解成为具有二叉树结构的子MDP,再用API方法逼近局部近似最优策略,所以该方法可以降低复杂度并且保持较高的精度。通过对三个标准学习控制问题的试验,证明了在保持相同样本和基函数的条件下,HAPI方法与已有算法相比较,可以得到更好的近似最优策略。 (3)以虚拟维修应用中多约束条件下的虚拟人运动规划为目标,研究基于结构化增强学习的虚拟人分层运动规划理论框架。在该框架中,把运动规划问题描述为Markov过程模型,结合底层的RRT路径规划算法,通过结构化增强学习方法实现高维空间的虚拟人路径规划。.项目共发表论文22篇,12篇进入SCI检索,主要成果发表在IEEE Transactions on Neural Networks and Learning Systems, IEEE Transactions on Control Systems Technology等国际权威期刊,全部论文均进入EI检索源。项目负责人受邀担任国际期刊Information Sciences(IF=3.6)的Associate Editor和Int. J. of Adaptive Control and Signal Processing的Guest Editor

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
2

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
5

一种改进的多目标正余弦优化算法

一种改进的多目标正余弦优化算法

DOI:
发表时间:2019

徐昕的其他基金

批准号:51705121
批准年份:2017
资助金额:25.00
项目类别:青年科学基金项目
批准号:60303012
批准年份:2003
资助金额:23.00
项目类别:青年科学基金项目
批准号:60774076
批准年份:2007
资助金额:25.00
项目类别:面上项目
批准号:81900487
批准年份:2019
资助金额:21.00
项目类别:青年科学基金项目
批准号:10774126
批准年份:2007
资助金额:36.00
项目类别:面上项目
批准号:81370197
批准年份:2013
资助金额:70.00
项目类别:面上项目
批准号:U1564214
批准年份:2015
资助金额:228.00
项目类别:联合基金项目
批准号:29403024
批准年份:1994
资助金额:6.00
项目类别:青年科学基金项目
批准号:41875068
批准年份:2018
资助金额:62.00
项目类别:面上项目
批准号:41505046
批准年份:2015
资助金额:21.00
项目类别:青年科学基金项目
批准号:21133004
批准年份:2011
资助金额:280.00
项目类别:重点项目
批准号:91027044
批准年份:2010
资助金额:280.00
项目类别:重大研究计划
批准号:29973031
批准年份:1999
资助金额:13.00
项目类别:面上项目
批准号:21903083
批准年份:2019
资助金额:26.00
项目类别:青年科学基金项目

相似国自然基金

1

DC规划的理论和算法研究及其在机器学习中的应用

批准号:11871128
批准年份:2018
负责人:吴至友
学科分类:A0405
资助金额:55.00
项目类别:面上项目
2

结构化解析字典学习及其在压缩感知图像重构中的应用研究

批准号:61803096
批准年份:2018
负责人:李珍妮
学科分类:F0310
资助金额:25.00
项目类别:青年科学基金项目
3

均衡约束数学规划问题的几个算法及其在机器学习中的应用

批准号:11761014
批准年份:2017
负责人:陈玉
学科分类:A0405
资助金额:36.00
项目类别:地区科学基金项目
4

结构化判别字典学习方法及其应用研究

批准号:61272331
批准年份:2012
负责人:向世明
学科分类:F0605
资助金额:82.00
项目类别:面上项目