基于复杂图知识表示的终身强化学习研究

基本信息

批准号：61503178

项目类别：青年科学基金项目

资助金额：22.00

负责人：王皓

学科分类：

依托单位：南京大学

批准年份：2015

结题年份：2018

起止时间：2016-01-01 - 2018-12-31

项目状态：已结题

项目参与者：Nikos Mamoulis,张剡,林玲,林木丰,宋锦华,杨尚东,俞露

关键词：

复杂图终身强化学习相似度搜索子图匹配选择性知识迁移

结项摘要

This project proposes to study lifelong reinforcement learning (LRL), a novel extension of reinforcement learning (RL) in the era of big data, of which the ultimate goal is to implement selective transfer of knowledge from large-amount, heterogeneous past learning experiences to improve current learning. In this project we consider LRL from a perspective of data management. We use a database to maintain all RL data and transform selective transfer problems into similarity search problems over the database, which could be efficiently solved via elaborate index structures. Specifically, this project proposes to study (1) complex graphical knowledge representations of reinforcement learning tasks, (2) similarity measures between RL tasks represented as complex graphs, (3) design of index structures over the learning database and efficient similarity search algorithms, and (4) design of selective transfer algorithms and LRL systems...Based on the outcomes of this project, we plan to (1) publish 6-8 high-quality papers on important international journals and conferences, (2) apply for 2 patents, and (3) jointly train 1 doctoral student.

本项目拟研究大数据背景下的新型强化学习技术——终身强化学习，其基本目标是在过去大量、异构的学习经验基础上实现选择性的知识迁移，以改进当前的学习。本项目从数据管理的角度探讨终身强化学习：使用数据库存储所有的历史强化学习数据，将选择性迁移问题转化为数据上的相似度搜索问题，并通过设计数据上的索引结构而加以高效解决。具体而言，本项目拟研究如下内容：（1）强化学习任务的复杂图知识表示；（2）基于复杂图知识表示的强化学习任务相似度定义；（3）历史数据库上的索引结构设计以及强化学习任务的相似度搜索；以及（4）选择性迁移学习算法及终身强化学习系统设计。.基于研究成果，本项目拟在重要的国际学术期刊及会议上发表高水平论文6-8篇，申报专利2项，联合培养博士研究生1人。

项目摘要

本项目（ “基于复杂图知识表示的终身强化学习研究”）经过3年的研究，针对强化学习学习问题的复杂图知识表示以及基于复杂图知识表示的学习理论与方法进行深入探讨，着重研究了Markov决策过程的相似性、强化学习迁移、以及作为终身强化学习支持技术的top-k数据查询处理和流数据分析等技术内容，提出了若干项领域中前沿的算法技术或理论成果。项目在国际重要学术会议和期刊上共发表学术论文13篇，其中SCI索引4篇，EI索引9篇，CCF-A类论文3篇、CCF-B类论文6篇、CCF-C类论文4篇，申请国家专利1项，并获2017年度吴文俊人工智能科学技术奖2等奖。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2021

DOI：10.12202/j.0476-0301.2022178

发表时间：2022

DOI：

发表时间：2020

DOI：10.19328/j.cnki.2096-8655.2022.02.002

发表时间：2022

DOI：

发表时间：2021

王皓的其他基金

批准号：30200331

批准年份：2002

资助金额：7.00

项目类别：青年科学基金项目

批准号：50675030

批准年份：2006

资助金额：28.00

项目类别：面上项目

批准号：51472195

批准年份：2014

资助金额：83.00

项目类别：面上项目

批准号：50102003

批准年份：2001

资助金额：20.00

项目类别：青年科学基金项目

批准号：30872402

批准年份：2008

资助金额：26.00

项目类别：面上项目

批准号：71772038

批准年份：2017

资助金额：50.00

项目类别：面上项目

批准号：11501389

批准年份：2015

资助金额：18.00

项目类别：青年科学基金项目

批准号：41405036

批准年份：2014

资助金额：25.00

项目类别：青年科学基金项目

批准号：61602287

批准年份：2016

资助金额：20.00

项目类别：青年科学基金项目

批准号：50605042

批准年份：2006

资助金额：24.00

项目类别：青年科学基金项目

批准号：81402519

批准年份：2014

资助金额：23.00

项目类别：青年科学基金项目

批准号：30371602

批准年份：2003

资助金额：16.00

项目类别：面上项目

批准号：39880046

批准年份：1998

资助金额：14.00

项目类别：专项基金项目

批准号：71103036

批准年份：2011

资助金额：21.00

项目类别：青年科学基金项目

批准号：11472172

批准年份：2014

资助金额：75.00

项目类别：面上项目

批准号：39940001

批准年份：1999

资助金额：5.00

项目类别：专项基金项目

批准号：51075259

批准年份：2010

资助金额：30.00

项目类别：面上项目

批准号：31070821

批准年份：2010

资助金额：33.00

项目类别：面上项目

相似国自然基金

基于情感知识库构建、领域适应和终身学习的社交媒体情感分析方法

批准号：61672288

批准年份：2016

负责人：夏睿

学科分类：F0211

资助金额：62.00

项目类别：面上项目

基于学术异质网络表示学习的知识群落发现

批准号：71804135

批准年份：2018

负责人：毛进

学科分类：G0414

资助金额：18.50

项目类别：青年科学基金项目

基于表示学习的知识图谱近似查询方法研究

批准号：61906037

批准年份：2019

负责人：王萌

学科分类：F0607

资助金额：27.00

项目类别：青年科学基金项目

基于对抗表示学习的知识迁移关键技术研究

批准号：61876208

批准年份：2018

负责人：吴庆耀

学科分类：F0607

资助金额：62.00

项目类别：面上项目

基于复杂图知识表示的终身强化学习研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于铁路客流分配的旅客列车开行方案调整方法

复杂系统科学研究进展

基于多色集合理论的医院异常工作流处理建模

"多对多"模式下GEO卫星在轨加注任务规划

长链基因间非编码RNA 00681竞争性结合miR-16促进黑素瘤细胞侵袭和迁移

王皓的其他基金

双信号嵌合T细胞受体介导的肿瘤细胞毒作用及机理

微流体驱动光学波前校正器的理论与关键技术研究

基于A/B位离子固溶的新型AlON系尖晶石型透明陶瓷体系设计、制备与性能调控研究

结构陶瓷原位复合硬磁铁氧体材料的界面结构与性能

抗IgE抗体结构功能解析及新型高亲和力抗IgE抗体的筛选

中国汽车行业资源依赖关系的网络特征及其对企业战略的影响

原子/连续耦合方法的后验误差估计及其自适应的研究

利用地基GPS水汽层析技术对成都平原不同天气背景下的水汽演变特征研究

云环境下高效属性基加密体制的设计及可证明安全性研究

复杂机械系统动力学建模的复合方法

PI3K/AKT/FOXO3a信号通路对结直肠癌细胞持续低剂量率放射敏感性的贡献及机制

双信号嵌合T细胞受体介导的肿瘤细胞毒作用及机理

新城病毒在肿瘤疫苗制备中的作用

合资模式对寡头合谋的影响机制分析：对中国轿车行业的考察

基于桁架-机构映射的多体系统拓扑优化方法

缺陷型腺病毒特异性杀性P53异常肿瘤细胞的研究

基于势能分配的操作机构刚度分布评价与静刚度综合

新型CD20抗体的抗肿瘤作用及其分子机理

相似国自然基金