面向非限定条件的演化强化学习理论与算法研究

基本信息

批准号：61375061

项目类别：面上项目

资助金额：79.00

负责人：俞扬

学科分类：

依托单位：南京大学

批准年份：2013

结题年份：2017

起止时间：2014-01-01 - 2017-12-31

项目状态：已结题

项目参与者：赵金熙,钱超,邢佑路,郭训力,宋拴,胡孟

关键词：

复杂度分析演化算法强化学习跨环境学习集成学习

结项摘要

Reinforcement learning, which is a major branch of machine learning, studies how an agent obtains an optimal policy that maximizes its long-term accumulated reward by learning from interactions with the environment. In classical reinforcement learning research, the agent is assumed to be placed under controlled conditions such as a simple and static environment. However, as reinforcement learning is getting wider applications, the agent is placed in sophisticated and dynamic environments, and thus the controlled assumptions break and traditional approaches fail. The extending of traditional approaches to fit uncontrolled conditions faces several main barriers including aspects from the learning target and the model representation, mainly due to the lack of suitable optimization approaches. This project proposes to study evolutionary reinforcement learning (ERL), which borrows the optimization power of evolutionary algorithms to tackle the barriers. First, to the key problem that ERL has little theoretical foundation, we propose a theoretical analysis tool. Then to the two barriers in learning target and model representation, we propose to study ERL with directly policy optimization, and with additive models, respectively. Finally, combining the research from the above aspects, we propose to study ERL for the transfer reinforcement learning problem. Project outcome would include the publication of 8 to 10 papers in "IEEE Trans." level international journals, conferences and domestic top journals, applications for 2 to 3 national patents, and supports to several graduate students.

强化学习是机器学习的一个重要分支领域，研究如何使智能体从环境交互过程中学习到最优策略以最大化累积奖赏，具有广泛的应用前景。经典强化学习假设智能体处在简单固定环境等限定条件下，然而随着强化学习向更多应用领域拓展，智能体所处环境复杂多变，限定条件下的假设不再成立，经典方法难以适用。由于缺乏有效优化手段，经典方法向非限定条件的推广面临学习目标、模型表示两方面障碍。本项目研究面向非限定条件的演化强化学习，用演化算法的优化能力处理这两方面障碍，针对演化强化学习理论基础薄弱这一关键问题提出一种理论分析方法；针对学习目标、模型表达上的障碍，分别提出一种直接策略优化演化强化学习方法、一种使用加性模型的演化强化学习方法；针对固定环境这一经典限定，整合以上工作，提出一种可跨环境的演化强化学习方法。计划在IEEE Trans级别国际期刊和会议、国内一级学报发表论文8-10篇，申请专利2-3项，培养研究生多名。

项目摘要

本项目针对非限定条件强化学习问题，通过利用演化优化算法、扩展强化学习方法、发展直接策略优化、使用加性模型强化学习方法，提出一种可跨环境的演化强化学习方法。具体如下：1、提出了演化强化学习理论分析工具，交换分析方法，并用于多种演化优化算法的分析，相关工作发表在顶级国际期刊《Artificial Intelligence》（CCF A类）和重要国际期刊《IEEE Trans. EC》、《Science China: Information Sciences》，以及国际重要会议IDEAL’16、IEEE CEC’15上；2、针对以往强化学习方法面临的策略退化、高维、约束优化等问题，提出了基于分类的演化强化学习方法RACOS、SRACOS，并使用序列化随机嵌入技术，将其扩展求解高维问题，提出了Pareto多目标优化方法解决约束优化问题，并用其进行直接策略优化，相关工作发表在国际顶级会议AAAI、IJCAI、NIPS（CCF A类）和重要国际会议PRICAI’16、IEEE CEC’16、IEEE CEC’14上；3、提出PolicyBoost方法，使用加性模型成功扩展了强化学习模型的表达能力，并提出Napping方法解决加性模型下计算开销大的缺陷，相关工作发表在国际重要会议AAMAS’14、AAMAS’16上；4、利用噪音对强化学习进行跨环境建模，提出了ASG框架处理开放类别检测问题，并对策略跨环境迁移进行研究，提出自演进迁移方法，能够通过环境迁移高效地获得有效策略，相关工作发表在重要国际期刊《Evolutionary Computation》，国际顶级会议IJCAI’17、AAAI’14（CCF-A类）和重要国际会议PPSN’14，自演进迁移方法已申请专利。此外，基于项目成果开发了一套演化强化学习工具包。..本项目共发表论文28篇，其中国际会议21篇（包括顶级国际会议NIPS等CCF A类会议13篇）；国际期刊5篇（包括一流国际期刊《Artificial Intelligence》等）；国内期刊2篇；论文已被SCI、EI收录24篇次，累计被引用280次；获得IDEAL’16最佳论文奖；国家发明专利1项；研制了一套自主服务智能体原型系统。..以该项目为支撑，培养硕士研究生14名，博士研究生3名。截止目前，项目完成预期任务，达到结题指标。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2021

DOI：

发表时间：

DOI：10.11842/wst.20190724002

发表时间：2020

DOI：10.3778/j.issn.1002-8331.1903-0411

发表时间：2020

DOI：10.19328/j.cnki.2096-8655.2022.02.002

发表时间：2022

俞扬的其他基金

批准号：61876077

批准年份：2018

资助金额：64.00

项目类别：面上项目

相似国自然基金

量子强化学习理论、算法及应用

批准号：60703083

批准年份：2007

负责人：董道毅

学科分类：F0201

资助金额：20.00

项目类别：青年科学基金项目

面向认知的多源数据学习理论与算法

批准号：61632004

批准年份：2016

负责人：于剑

学科分类：F0605

资助金额：265.00

项目类别：重点项目

面向多媒体大数据的PDE学习理论与算法

批准号：61672125

批准年份：2016

负责人：刘日升

学科分类：F0605

资助金额：63.00

项目类别：面上项目

面向大数据的随机森林机器学习理论与算法研究

批准号：61602482

批准年份：2016

负责人：张英华

学科分类：F06

资助金额：21.00

项目类别：青年科学基金项目

面向非限定条件的演化强化学习理论与算法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于铁路客流分配的旅客列车开行方案调整方法

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

新型树启发式搜索算法的机器人路径规划

"多对多"模式下GEO卫星在轨加注任务规划

俞扬的其他基金

面向高动态环境的强化学习策略搜索理论与方法研究

相似国自然基金