Reinforcement learning, which is a major branch of machine learning, studies how an agent obtains an optimal policy that maximizes its long-term accumulated reward by learning from interactions with the environment. In classical reinforcement learning research, the agent is assumed to be placed under controlled conditions such as a simple and static environment. However, as reinforcement learning is getting wider applications, the agent is placed in sophisticated and dynamic environments, and thus the controlled assumptions break and traditional approaches fail. The extending of traditional approaches to fit uncontrolled conditions faces several main barriers including aspects from the learning target and the model representation, mainly due to the lack of suitable optimization approaches. This project proposes to study evolutionary reinforcement learning (ERL), which borrows the optimization power of evolutionary algorithms to tackle the barriers. First, to the key problem that ERL has little theoretical foundation, we propose a theoretical analysis tool. Then to the two barriers in learning target and model representation, we propose to study ERL with directly policy optimization, and with additive models, respectively. Finally, combining the research from the above aspects, we propose to study ERL for the transfer reinforcement learning problem. Project outcome would include the publication of 8 to 10 papers in "IEEE Trans." level international journals, conferences and domestic top journals, applications for 2 to 3 national patents, and supports to several graduate students.
强化学习是机器学习的一个重要分支领域,研究如何使智能体从环境交互过程中学习到最优策略以最大化累积奖赏,具有广泛的应用前景。经典强化学习假设智能体处在简单固定环境等限定条件下,然而随着强化学习向更多应用领域拓展,智能体所处环境复杂多变,限定条件下的假设不再成立,经典方法难以适用。由于缺乏有效优化手段,经典方法向非限定条件的推广面临学习目标、模型表示两方面障碍。本项目研究面向非限定条件的演化强化学习,用演化算法的优化能力处理这两方面障碍,针对演化强化学习理论基础薄弱这一关键问题提出一种理论分析方法;针对学习目标、模型表达上的障碍,分别提出一种直接策略优化演化强化学习方法、一种使用加性模型的演化强化学习方法;针对固定环境这一经典限定,整合以上工作,提出一种可跨环境的演化强化学习方法。计划在IEEE Trans级别国际期刊和会议、国内一级学报发表论文8-10篇,申请专利2-3项,培养研究生多名。
本项目针对非限定条件强化学习问题,通过利用演化优化算法、扩展强化学习方法、发展直接策略优化、使用加性模型强化学习方法,提出一种可跨环境的演化强化学习方法。具体如下:1、提出了演化强化学习理论分析工具,交换分析方法,并用于多种演化优化算法的分析,相关工作发表在顶级国际期刊《Artificial Intelligence》(CCF A类)和重要国际期刊《IEEE Trans. EC》、《Science China: Information Sciences》,以及国际重要会议IDEAL’16、IEEE CEC’15上;2、针对以往强化学习方法面临的策略退化、高维、约束优化等问题,提出了基于分类的演化强化学习方法RACOS、SRACOS,并使用序列化随机嵌入技术,将其扩展求解高维问题,提出了Pareto多目标优化方法解决约束优化问题,并用其进行直接策略优化,相关工作发表在国际顶级会议AAAI、IJCAI、NIPS(CCF A类)和重要国际会议PRICAI’16、IEEE CEC’16、IEEE CEC’14上;3、提出PolicyBoost方法,使用加性模型成功扩展了强化学习模型的表达能力,并提出Napping方法解决加性模型下计算开销大的缺陷,相关工作发表在国际重要会议AAMAS’14、AAMAS’16上;4、利用噪音对强化学习进行跨环境建模,提出了ASG框架处理开放类别检测问题,并对策略跨环境迁移进行研究,提出自演进迁移方法,能够通过环境迁移高效地获得有效策略,相关工作发表在重要国际期刊《Evolutionary Computation》,国际顶级会议IJCAI’17、AAAI’14(CCF-A类)和重要国际会议PPSN’14,自演进迁移方法已申请专利。此外,基于项目成果开发了一套演化强化学习工具包。..本项目共发表论文28篇,其中国际会议21篇(包括顶级国际会议NIPS等CCF A类会议13篇);国际期刊5篇(包括一流国际期刊《Artificial Intelligence》等);国内期刊2篇;论文已被SCI、EI收录24篇次,累计被引用280次;获得IDEAL’16最佳论文奖;国家发明专利1项;研制了一套自主服务智能体原型系统。..以该项目为支撑,培养硕士研究生14名,博士研究生3名。截止目前,项目完成预期任务,达到结题指标。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
跨社交网络用户对齐技术综述
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
量子强化学习理论、算法及应用
面向认知的多源数据学习理论与算法
面向多媒体大数据的PDE学习理论与算法
面向大数据的随机森林机器学习理论与算法研究