面向大规模多步学习问题的学习分类元系统技术研究

基本信息
批准号:61502274
项目类别:青年科学基金项目
资助金额:20.00
负责人:臧兆祥
学科分类:
依托单位:三峡大学
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:王俊英,李昭,李莉,唐鸣,颜芬芬,林瑞
关键词:
学习分类元系统强化学习平均奖赏多步学习问题连续空间
结项摘要

To solve multi-step problem is one of the main research field of reinforcement learning. It has important and wide-range application in the field of robot navigation in unknown environments, computer game AI, control, and so on. As a genetics-based machine learning technique, learning classifier systems (LCSs) has shown promise on solving multi-step problems, but they have difficulties in solving large multi-step problems. This project tries to analyze the reasons behind the difficulties, and develop the solving mechanisms for LCSs in large multi-step problems. The concrete contents include: to study the performance limitations resulting from the discounted reward reinforcement learning algorithms within LCSs, and then replace them by some average reward reinforcement learning methods to support long action chains in large multi-step problems; to develop an effective memory mechanism for LCSs to cope with no-Markov problems, in order to improve the effectiveness and robustness of LCSs in these problems; to build some LCSs which can address multi-step problems with continuous state and action space, by using some typical function approximation methods and Generalized Classifier System based on LCSs' special structural features and generalization ability. The results of this study can provide theoretical and technical basis for the application of LCSs in related fields.

多步学习问题的求解是强化学习研究的主要问题之一,在未知环境下的机器人路径规划、计算机游戏智能、控制调度等领域有着重要和广泛的应用。学习分类元系统(Learning Classifier Systems, LCSs)对多步学习问题的求解展现出了应用价值,但其难于求解大规模的这类问题。为此,本项目通过研究大规模学习问题难于求解的主要原因,来构建LCSs在这类问题中的求解机制。具体内容包括:研究LCSs中现有的折扣奖赏强化学习算法对其性能的限制和阻碍作用,并通过将其置换为多种基于平均奖赏的强化学习算法,来提升LCSs对动作长链的支持能力;为LCSs构建有效的记忆机制来应对大规模学习问题具有的非马尔科夫特性;分别从典型的函数逼近方法和基于LCSs自身结构特点和泛化能力优势发展而来的广义分类元系统这两个方面,来求解具备连续状态和动作空间的多步学习问题。本项目的研究可为相关应用提供理论和技术基础。

项目摘要

未知环境下的机器人路径规划是一种多步学习问题。学习分类元系统(Learning Classifier Systems, LCSs)作为一种机器学习技术,常被用于求解这类问题,但其难于求解大规模的多步学习问题。为此,研究LCSs中现有的折扣奖赏强化学习算法对其性能的限制和阻碍作用,并通过将其置换为多种基于平均奖赏的强化学习算法,来提升LCSs对动作长链的支持能力;为LCSs设计有效的记忆机制来应对学习问题中的部分可观测特性;采用神经网络作为函数逼近器来辅助LCSs处理连续状态空间问题,以期构建LCSs在大规模学习问题中的求解机制。这为大规模的多步学习问题的求解提供了新的认识和解决思路,也为LCSs在诸如机器人导航、计算机游戏智能、控制调度等领域中的应用奠定了理论和技术基础。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

EBPR工艺运行效果的主要影响因素及研究现状

EBPR工艺运行效果的主要影响因素及研究现状

DOI:10.16796/j.cnki.1000-3770.2022.03.003
发表时间:2022
2

一种基于多层设计空间缩减策略的近似高维优化方法

一种基于多层设计空间缩减策略的近似高维优化方法

DOI:10.1051/jnwpu/20213920292
发表时间:2021
3

复杂系统科学研究进展

复杂系统科学研究进展

DOI:10.12202/j.0476-0301.2022178
发表时间:2022
4

带有滑动摩擦摆支座的500 kV变压器地震响应

带有滑动摩擦摆支座的500 kV变压器地震响应

DOI:10.13336/j.1003-6520.hve.20200528028
发表时间:2021
5

基于主体视角的历史街区地方感差异研究———以北京南锣鼓巷为例

基于主体视角的历史街区地方感差异研究———以北京南锣鼓巷为例

DOI:
发表时间:2019

臧兆祥的其他基金

相似国自然基金

1

面向大规模多目标组合优化问题的元启发式算法和元学习算法研究

批准号:61903294
批准年份:2019
负责人:石家隆
学科分类:F0304
资助金额:25.00
项目类别:青年科学基金项目
2

面向大规模数据的多示例学习

批准号:61403281
批准年份:2014
负责人:王志岗
学科分类:F0605
资助金额:25.00
项目类别:青年科学基金项目
3

面向动态实时人工智能应用的大规模机器学习系统协同调度技术研究

批准号:61872376
批准年份:2018
负责人:黄峰
学科分类:F0204
资助金额:66.00
项目类别:面上项目
4

大规模数据的个性化分类学习

批准号:61263032
批准年份:2012
负责人:范自柱
学科分类:F0605
资助金额:45.00
项目类别:地区科学基金项目