强化学习迁移技术及其在交互式游戏中的应用研究

基本信息

批准号：61175042

项目类别：面上项目

资助金额：58.00

负责人：高阳

学科分类：

依托单位：南京大学

批准年份：2011

结题年份：2015

起止时间：2012-01-01 - 2015-12-31

项目状态：已结题

项目参与者：曹迎春,余永红,陈兴国,史颖欢,金龑,江凯,顾小东,付强

关键词：

强化学习交互式游戏迁移学习强化学习迁移

结项摘要

在强化学习迁移技术中，研究出针对单源、多源、跨域、多Agent强化学习迁移的若干模型和相关算法。采用多示例学习、分层强化学习、强化学习函数估计、关系强化学习等具体研究手段，实现以上强化学习迁移算法。并利用算法信息理论对部分的迁移方法进行理论证明。将以上方法应用到交互式游戏领域中，实现游戏在规模变化、任务变化和角色变换时的强化学习迁移。.基于所研究成果，将在国际学术刊物、国际一流学术会议和国内一级刊物上发表论文15-20篇；申请专利3-4项；并使本课题在强化学习迁移技术方面的研究在国际上处于领先水平。

项目摘要

本课题针对现有的强化学习迁移技术存在的问题，重关注强化学习迁移技术模型、算法及应用。在本课题中，我们从强化学习迁移目标、强化学习迁移方法、强化学习迁移应用三个角度加以研究，并研究评价准则的适用性和相关迁移方法的理论证明。具体地，本课题在学习任务相似性度量、多智能体强化学习迁移方法、平均奖赏强化学习中迁移方法、基于核函数估计的强化学习等方面进行了深入的研究工作，这其中包括：（1）基于bisimulation状态距离的任务相似度度量方法及其迁移学习方法；（2）基于常数奖赏偏移值的学习算法；（3）基于核函数估计的在线选择性时间差分学习方法；（4）多智能体强化学习中的均衡迁移方法；（5）稀疏交互的多智能体系统中任务间相似度度量方法及其知识迁移方法；（6）本课题所提出的理论方法在俄罗斯方块、吃豆子等游戏中的应用。基于以上的研究工作，本课题共发表学术论文32篇，其中CCF-A类论文3篇，CCF-B类论文7篇，CCF-C类论文3篇，国内核心期刊论文9篇。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2022

DOI：10.3724/sp.j.1089.2022.19009

发表时间：2022

DOI：

发表时间：2019

DOI：

发表时间：2021

DOI：10.3969/j.issn.1004-132x.2020.17.009

发表时间：2020

高阳的其他基金

批准号：41601053

批准年份：2016

资助金额：20.00

项目类别：青年科学基金项目

批准号：41501087

批准年份：2015

资助金额：23.00

项目类别：青年科学基金项目

批准号：50075011

批准年份：2000

资助金额：22.00

项目类别：面上项目

批准号：70572060

批准年份：2005

资助金额：17.00

项目类别：面上项目

批准号：51765001

批准年份：2017

资助金额：34.00

项目类别：地区科学基金项目

批准号：50575028

批准年份：2005

资助金额：27.00

项目类别：面上项目

批准号：11472299

批准年份：2014

资助金额：95.00

项目类别：面上项目

批准号：41304106

批准年份：2013

资助金额：25.00

项目类别：青年科学基金项目

批准号：31801708

批准年份：2018

资助金额：27.00

项目类别：青年科学基金项目

批准号：70172015

批准年份：2001

资助金额：12.00

项目类别：面上项目

批准号：60775046

批准年份：2007

资助金额：27.00

项目类别：面上项目

批准号：41503031

批准年份：2015

资助金额：22.00

项目类别：青年科学基金项目

批准号：60103012

批准年份：2001

资助金额：18.00

项目类别：青年科学基金项目

批准号：61432008

批准年份：2014

资助金额：350.00

项目类别：重点项目

批准号：41705124

批准年份：2017

资助金额：25.00

项目类别：青年科学基金项目

批准号：U1435214

批准年份：2014

资助金额：150.00

项目类别：联合基金项目

批准号：51705154

批准年份：2017

资助金额：23.00

项目类别：青年科学基金项目

批准号：11904049

批准年份：2019

资助金额：25.00

项目类别：青年科学基金项目

批准号：60475026

批准年份：2004

资助金额：23.00

项目类别：面上项目

批准号：51172033

批准年份：2011

资助金额：65.00

项目类别：面上项目

批准号：51608336

批准年份：2016

资助金额：21.00

项目类别：青年科学基金项目

批准号：81600744

批准年份：2016

资助金额：17.00

项目类别：青年科学基金项目

批准号：81102382

批准年份：2011

资助金额：22.00

项目类别：青年科学基金项目

批准号：51109213

批准年份：2011

资助金额：26.00

项目类别：青年科学基金项目

批准号：71071163

批准年份：2010

资助金额：28.00

项目类别：面上项目

批准号：51879267

批准年份：2018

资助金额：60.00

项目类别：面上项目

批准号：10702077

批准年份：2007

资助金额：20.00

项目类别：青年科学基金项目

批准号：11172319

批准年份：2011

资助金额：60.00

项目类别：面上项目

相似国自然基金

对抗负迁移：安全迁移学习及其应用研究

批准号：61876091

批准年份：2018

负责人：汪云云

学科分类：F0603

资助金额：16.00

项目类别：面上项目

基于支持向量机的增量式强化学习技术及其应用研究

批准号：61373094

批准年份：2013

负责人：伏玉琛

学科分类：F06

资助金额：77.00

项目类别：面上项目

迁移学习在图像分类中的应用研究

批准号：61300163

批准年份：2013

负责人：闫胜业

学科分类：F0605

资助金额：23.00

项目类别：青年科学基金项目

强化学习关键技术及其在机器人行为学习中的应用

批准号：60974050

批准年份：2009

负责人：程玉虎

学科分类：F0310

资助金额：31.00

项目类别：面上项目

强化学习迁移技术及其在交互式游戏中的应用研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

一种改进的多目标正余弦优化算法

面向工件表面缺陷的无监督域适应方法

采用深度学习的铣刀磨损状态预测模型

高阳的其他基金

封育草地根系功能性状演变及其对土壤碳蓄积的作用机制

半干旱区沙地开发利用对生态系统服务的扰动及变化机制

超高温低能量湍流非转移弧热等离子体特性的研究

实现多级供货能力承诺的虚拟企业生产计划协同优化研究

珩轮齿面CBN涂层多磨粒微刃珩削加工特性研究

大功率双阳极等离子喷枪射流特性与涂层性能研究

层状准晶智能复合材料的力学行为研究

利用核磁共振测井进行页岩气储层评价的理论与方法研究

与马铃薯Y病毒HC-Pro蛋白互作的桃蚜口针受体蛋白的筛选鉴定

基于敏捷制造的多智能体协同生产管理及其系统研究

新型强化学习算法及应用研究

大别钼矿带斑岩型钼矿床含矿岩浆的性质和演化及其对钼成矿的制约：副矿物微量元素和同位素证据

多Agent信念修正理论研究

面向大数据的知识表示、推理、在线学习理论及应用研究

气候变化下我国华北地区热浪和静稳天气对臭氧影响的高精度区域模拟研究

面向大数据的知识表示、推理、在线学习理论及应用研究

高延展性石墨烯应变传感器及其性能衰变机理研究

贵金属超原子团簇与小气体分子的反应性理论研究

非马尔可夫决策过程中强化学习技术研究与应用

超低压等离子沉积新技术制备YSZ类柱状晶涂层生长机理研究

铁路隧道衬砌脱空的裂损机理及其失稳前兆研究

介导VLDLR调节Wnt通路—非诺贝特治疗糖尿病视网膜病变的机制研究

Chitosan oligomers 用于改善蛋白质、肽类难吸收药物口服吸收及其吸收促进机制的研究

水、氮供应对间作群体种间相互作用的影响机理

不确定环境下再制造逆向物流网络的多周期多目标设计研究

干旱绿洲区核桃/小麦间作系统水热碳氮过程与耦合模拟

准晶弹性力学与精确的梁板理论

准晶材料的缺陷分析与失效行为研究

相似国自然基金