在强化学习迁移技术中,研究出针对单源、多源、跨域、多Agent强化学习迁移的若干模型和相关算法。采用多示例学习、分层强化学习、强化学习函数估计、关系强化学习等具体研究手段,实现以上强化学习迁移算法。并利用算法信息理论对部分的迁移方法进行理论证明。将以上方法应用到交互式游戏领域中,实现游戏在规模变化、任务变化和角色变换时的强化学习迁移。.基于所研究成果,将在国际学术刊物、国际一流学术会议和国内一级刊物上发表论文15-20篇;申请专利3-4项;并使本课题在强化学习迁移技术方面的研究在国际上处于领先水平。
本课题针对现有的强化学习迁移技术存在的问题,重关注强化学习迁移技术模型、算法及应用。在本课题中,我们从强化学习迁移目标、强化学习迁移方法、强化学习迁移应用三个角度加以研究,并研究评价准则的适用性和相关迁移方法的理论证明。具体地,本课题在学习任务相似性度量、多智能体强化学习迁移方法、平均奖赏强化学习中迁移方法、基于核函数估计的强化学习等方面进行了深入的研究工作,这其中包括:(1)基于bisimulation状态距离的任务相似度度量方法及其迁移学习方法;(2)基于常数奖赏偏移值的学习算法;(3)基于核函数估计的在线选择性时间差分学习方法;(4)多智能体强化学习中的均衡迁移方法;(5)稀疏交互的多智能体系统中任务间相似度度量方法及其知识迁移方法;(6)本课题所提出的理论方法在俄罗斯方块、吃豆子等游戏中的应用。基于以上的研究工作,本课题共发表学术论文32篇,其中CCF-A类论文3篇,CCF-B类论文7篇,CCF-C类论文3篇,国内核心期刊论文9篇。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
面向工件表面缺陷的无监督域适应方法
采用深度学习的铣刀磨损状态预测模型
Chitosan oligomers 用于改善蛋白质、肽类难吸收药物口服吸收及其吸收促进机制的研究
对抗负迁移:安全迁移学习及其应用研究
基于支持向量机的增量式强化学习技术及其应用研究
迁移学习在图像分类中的应用研究
强化学习关键技术及其在机器人行为学习中的应用