This project proposes to study lifelong reinforcement learning (LRL), a novel extension of reinforcement learning (RL) in the era of big data, of which the ultimate goal is to implement selective transfer of knowledge from large-amount, heterogeneous past learning experiences to improve current learning. In this project we consider LRL from a perspective of data management. We use a database to maintain all RL data and transform selective transfer problems into similarity search problems over the database, which could be efficiently solved via elaborate index structures. Specifically, this project proposes to study (1) complex graphical knowledge representations of reinforcement learning tasks, (2) similarity measures between RL tasks represented as complex graphs, (3) design of index structures over the learning database and efficient similarity search algorithms, and (4) design of selective transfer algorithms and LRL systems...Based on the outcomes of this project, we plan to (1) publish 6-8 high-quality papers on important international journals and conferences, (2) apply for 2 patents, and (3) jointly train 1 doctoral student.
本项目拟研究大数据背景下的新型强化学习技术——终身强化学习,其基本目标是在过去大量、异构的学习经验基础上实现选择性的知识迁移,以改进当前的学习。本项目从数据管理的角度探讨终身强化学习:使用数据库存储所有的历史强化学习数据,将选择性迁移问题转化为数据上的相似度搜索问题,并通过设计数据上的索引结构而加以高效解决。具体而言,本项目拟研究如下内容:(1)强化学习任务的复杂图知识表示;(2)基于复杂图知识表示的强化学习任务相似度定义;(3)历史数据库上的索引结构设计以及强化学习任务的相似度搜索;以及(4)选择性迁移学习算法及终身强化学习系统设计。.基于研究成果,本项目拟在重要的国际学术期刊及会议上发表高水平论文6-8篇,申报专利2项,联合培养博士研究生1人。
本项目( “基于复杂图知识表示的终身强化学习研究”)经过3年的研究,针对强化学习学习问题的复杂图知识表示以及基于复杂图知识表示的学习理论与方法进行深入探讨,着重研究了Markov决策过程的相似性、强化学习迁移、以及作为终身强化学习支持技术的top-k数据查询处理和流数据分析等技术内容,提出了若干项领域中前沿的算法技术或理论成果。项目在国际重要学术会议和期刊上共发表学术论文13篇,其中SCI索引4篇,EI索引9篇,CCF-A类论文3篇、CCF-B类论文6篇、CCF-C类论文4篇,申请国家专利1项,并获2017年度吴文俊人工智能科学技术奖2等奖。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
监管的非对称性、盈余管理模式选择与证监会执法效率?
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制
基于情感知识库构建、领域适应和终身学习的社交媒体情感分析方法
基于学术异质网络表示学习的知识群落发现
基于表示学习的知识图谱近似查询方法研究
基于对抗表示学习的知识迁移关键技术研究