基于值函数估计的强化学习算法研究

基本信息
批准号:61403208
项目类别:青年科学基金项目
资助金额:25.00
负责人:陈兴国
学科分类:
依托单位:南京邮电大学
批准年份:2014
结题年份:2017
起止时间:2015-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:程春玲,余永红,何翔,马玲玲,刘莉,王家良,王青芸,蒋政,王曙
关键词:
强化学习基于多核的值函数学习基于多核的核函数选择值函数估计基于多核的字典学习
结项摘要

This project is to study reinforcement learning algorithms based on value function approximation in order to deal with large scale reinforcement learning problems. The research work include .(1) study of new reinforcement learning algorithms based on linear function approximation; .(2) study of new reinforcement learning algorithms based on multi-kernel learning, which will mainly focus on .(i) new methods on multi-kernel selection;.(ii) new methods on multi-kernel dictionary learning;.(iii) new methods on multi-kernel based value function learning;.(3) study of the applications of the above algorithms in large scale, high dimensional reinforcement learning problems and interactive games.

在强化学习技术中,研究出能够解决大规模强化学习问题的值函数估计算法。研究基于线性值函数估计的强化学习新型算法;研究基于多核的强化学习新型算法,设计基于多核的核函数选取策略,设计基于多核的字典学习算法以及基于多核的值函数学习算法。将以上研究的线性值函数估计强化学习、基于核方法的强化学习应用到大规模、高维强化学习问题以及交互式游戏。

项目摘要

本项目研究基于值函数估计的若干强化学习模型和相关算法,如基于平均奖赏强化学习的常值偏移优化、多臂老虎机的常值偏移收敛速度研究、基于斜投影的迭代优化等。此外,我们将所提方法应用于交互式游戏中。基于所研究成果,我们在国内外重要期刊、会议上发表论文20篇,申请专利2项,培养毕业硕士生4名和在读硕士生3名。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
3

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
4

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

陈兴国的其他基金

批准号:20875040
批准年份:2008
资助金额:30.00
项目类别:面上项目
批准号:20275014
批准年份:2002
资助金额:20.00
项目类别:面上项目
批准号:20774071
批准年份:2007
资助金额:29.00
项目类别:面上项目
批准号:91622124
批准年份:2016
资助金额:80.00
项目类别:重大研究计划
批准号:21375053
批准年份:2013
资助金额:80.00
项目类别:面上项目
批准号:29675007
批准年份:1996
资助金额:9.00
项目类别:面上项目
批准号:21075056
批准年份:2010
资助金额:35.00
项目类别:面上项目
批准号:51173138
批准年份:2011
资助金额:60.00
项目类别:面上项目
批准号:21675068
批准年份:2016
资助金额:65.00
项目类别:面上项目
批准号:20972122
批准年份:2009
资助金额:35.00
项目类别:面上项目
批准号:90206026
批准年份:2002
资助金额:22.00
项目类别:重大研究计划

相似国自然基金

1

基于深度强化学习的集群资源调度算法研究

批准号:61872397
批准年份:2018
负责人:肖臻
学科分类:F0204
资助金额:66.00
项目类别:面上项目
2

基于损失函数的统计机器学习算法及其应用研究

批准号:60975040
批准年份:2009
负责人:陶卿
学科分类:F0603
资助金额:29.00
项目类别:面上项目
3

基于信号统计特征及复学习率的复值神经网络学习算法研究

批准号:61671099
批准年份:2016
负责人:张会生
学科分类:F0111
资助金额:58.00
项目类别:面上项目
4

DEM构建的多面函数抗差插值算法研究

批准号:41371367
批准年份:2013
负责人:陈传法
学科分类:D0114
资助金额:75.00
项目类别:面上项目