基于值函数估计的强化学习算法研究

基本信息

批准号：61403208

项目类别：青年科学基金项目

资助金额：25.00

负责人：陈兴国

学科分类：

依托单位：南京邮电大学

批准年份：2014

结题年份：2017

起止时间：2015-01-01 - 2017-12-31

项目状态：已结题

项目参与者：程春玲,余永红,何翔,马玲玲,刘莉,王家良,王青芸,蒋政,王曙

关键词：

强化学习基于多核的值函数学习基于多核的核函数选择值函数估计基于多核的字典学习

结项摘要

This project is to study reinforcement learning algorithms based on value function approximation in order to deal with large scale reinforcement learning problems. The research work include .(1) study of new reinforcement learning algorithms based on linear function approximation; .(2) study of new reinforcement learning algorithms based on multi-kernel learning, which will mainly focus on .(i) new methods on multi-kernel selection;.(ii) new methods on multi-kernel dictionary learning;.(iii) new methods on multi-kernel based value function learning;.(3) study of the applications of the above algorithms in large scale, high dimensional reinforcement learning problems and interactive games.

在强化学习技术中，研究出能够解决大规模强化学习问题的值函数估计算法。研究基于线性值函数估计的强化学习新型算法；研究基于多核的强化学习新型算法，设计基于多核的核函数选取策略，设计基于多核的字典学习算法以及基于多核的值函数学习算法。将以上研究的线性值函数估计强化学习、基于核方法的强化学习应用到大规模、高维强化学习问题以及交互式游戏。

项目摘要

本项目研究基于值函数估计的若干强化学习模型和相关算法，如基于平均奖赏强化学习的常值偏移优化、多臂老虎机的常值偏移收敛速度研究、基于斜投影的迭代优化等。此外，我们将所提方法应用于交互式游戏中。基于所研究成果，我们在国内外重要期刊、会议上发表论文20篇，申请专利2项，培养毕业硕士生4名和在读硕士生3名。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：

发表时间：2016

DOI：10.11918/j.issn.0367-6234.201804030

发表时间：2019

DOI：10.11834/jrs.20209060

发表时间：2020

DOI：

发表时间：2022

陈兴国的其他基金

批准号：20875040

批准年份：2008

资助金额：30.00

项目类别：面上项目

批准号：20275014

批准年份：2002

资助金额：20.00

项目类别：面上项目

批准号：20774071

批准年份：2007

资助金额：29.00

项目类别：面上项目

批准号：91622124

批准年份：2016

资助金额：80.00

项目类别：重大研究计划

批准号：21375053

批准年份：2013

资助金额：80.00

项目类别：面上项目

批准号：29675007

批准年份：1996

资助金额：9.00

项目类别：面上项目

批准号：21075056

批准年份：2010

资助金额：35.00

项目类别：面上项目

批准号：51173138

批准年份：2011

资助金额：60.00

项目类别：面上项目

批准号：21675068

批准年份：2016

资助金额：65.00

项目类别：面上项目

批准号：20972122

批准年份：2009

资助金额：35.00

项目类别：面上项目

批准号：90206026

批准年份：2002

资助金额：22.00

项目类别：重大研究计划

相似国自然基金

基于深度强化学习的集群资源调度算法研究

批准号：61872397

批准年份：2018

负责人：肖臻

学科分类：F0204

资助金额：66.00

项目类别：面上项目

基于损失函数的统计机器学习算法及其应用研究

批准号：60975040

批准年份：2009

负责人：陶卿

学科分类：F0603

资助金额：29.00

项目类别：面上项目

基于信号统计特征及复学习率的复值神经网络学习算法研究

批准号：61671099

批准年份：2016

负责人：张会生

学科分类：F0111

资助金额：58.00

项目类别：面上项目

DEM构建的多面函数抗差插值算法研究

批准号：41371367

批准年份：2013

负责人：陈传法

学科分类：D0114

资助金额：75.00

项目类别：面上项目

基于值函数估计的强化学习算法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

玉米叶向值的全基因组关联分析

监管的非对称性、盈余管理模式选择与证监会执法效率?

拥堵路网交通流均衡分配模型

内点最大化与冗余点控制的小型无人机遥感图像配准

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

陈兴国的其他基金

基于新型功能磁性核壳纳米粒子的毛细管电泳技术在蛋白质分离中的应用

基于离子液体的超高压毛细管电泳研究

单分子磁体(SMM) 的高分子化和多功能化研究

具有高激光损伤阈值的卤化物中红外非线性光学晶体材料的设计合成与性能研究

新型功能纳米材料涂层毛细管的制备及其在毛细管电泳同时分离测定复杂基体中多类中枢神经递质中的应用

微波和人工神经网络及流动注射在线联用分析技术的研究

酒石酸酯-硼酸-纳米材料新型手性准固定相的液相制备及其在毛细管电泳分离手性药物中的应用研究

以过渡金属原子簇为核构筑新型光电磁多功能分子材料的研究

共价有机框架材料(COFs)涂层毛细管的制备及其在毛细管电泳分离和测定环境内分泌干扰物中的应用研究

以强拉电子体系为核心构筑多支星状大共轭有机分子的设计合成与性能研究

新型无机/有机纳米复合磁功能材料的设计、合成与性能

相似国自然基金