This project is to study reinforcement learning algorithms based on value function approximation in order to deal with large scale reinforcement learning problems. The research work include .(1) study of new reinforcement learning algorithms based on linear function approximation; .(2) study of new reinforcement learning algorithms based on multi-kernel learning, which will mainly focus on .(i) new methods on multi-kernel selection;.(ii) new methods on multi-kernel dictionary learning;.(iii) new methods on multi-kernel based value function learning;.(3) study of the applications of the above algorithms in large scale, high dimensional reinforcement learning problems and interactive games.
在强化学习技术中,研究出能够解决大规模强化学习问题的值函数估计算法。研究基于线性值函数估计的强化学习新型算法;研究基于多核的强化学习新型算法,设计基于多核的核函数选取策略,设计基于多核的字典学习算法以及基于多核的值函数学习算法。将以上研究的线性值函数估计强化学习、基于核方法的强化学习应用到大规模、高维强化学习问题以及交互式游戏。
本项目研究基于值函数估计的若干强化学习模型和相关算法,如基于平均奖赏强化学习的常值偏移优化、多臂老虎机的常值偏移收敛速度研究、基于斜投影的迭代优化等。此外,我们将所提方法应用于交互式游戏中。基于所研究成果,我们在国内外重要期刊、会议上发表论文20篇,申请专利2项,培养毕业硕士生4名和在读硕士生3名。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
监管的非对称性、盈余管理模式选择与证监会执法效率?
拥堵路网交通流均衡分配模型
内点最大化与冗余点控制的小型无人机遥感图像配准
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于深度强化学习的集群资源调度算法研究
基于损失函数的统计机器学习算法及其应用研究
基于信号统计特征及复学习率的复值神经网络学习算法研究
DEM构建的多面函数抗差插值算法研究