Markov决策过程值函数逼近的基函数自动构造

基本信息

批准号：61273143

项目类别：面上项目

资助金额：80.00

负责人：程玉虎

学科分类：

依托单位：中国矿业大学

批准年份：2012

结题年份：2016

起止时间：2013-01-01 - 2016-12-31

项目状态：已结题

项目参与者：薛雪,李会军,朱美强,潘杰,张倩,曹戈,汪婵,周光霞

关键词：

Markov决策过程强化学习基函数构造值函数逼近状态动作图

结项摘要

Reinforcement learning is an effective method for solving Markov decision problems with unknown model. For reinforcement learning in continuous space based on linear value function approximation, the reasonable construction of basis functions influences the approximation accuracy of value function for Markov decision process (MDP) and further influences the performance of reinforcement learning methods. Therefore, the automatic construction method of basis functions for MDP value function approximation will be researched using the analysis idea and method of graph theory in the project. The main contents in our study include the following aspects. In order to embody the discrepancy between actions and to describe comprehensively the basic topology structure of MDP environment, a building method of a state-action graph for continuous space is proposed. In order to improve approximation accuracy and generalization ability of MDP value function, an automatic construction method of basis functions defined on the state-action graph is proposed. In order to decrease the computational and storage costs and to improve the learning efficiency of the MDP value function approximation, a sparsity-oriented automatic selection algorithm of basis functions is designed. In addition, the proposed new reinforcement learning methods in continuous space are applied to some typical Markov decision problems such as the balancing control problem of an inverted pendulum, elevator group scheduling problem and the autonomous navigation problem of a mobile robot to verify its feasibility and validity. The research fruits not only can extend the application domain of reinforcement learning methods to continuous space, but also can further deepen and enrich the present reinforcement learning theory.

强化学习是求解模型未知的Markov决策问题的有效方法。对于基于线性值函数逼近的连续空间强化学习来说，基函数的合理构造将直接影响Markov决策过程（MDP）值函数的逼近精度，进而影响强化学习方法的性能。为此，本项目拟利用图论的分析思想和方法，研究MDP值函数逼近的基函数自动构造方法。内容包括：为体现动作之间的差异性和全面描述MDP环境的基本拓扑结构，构建连续空间状态-动作图；为提高MDP值函数的逼近精度和泛化能力，研究状态-动作图上的基函数自动构造方法；为减小计算和存储代价，提高MDP值函数逼近的学习效率，设计面向稀疏化的基函数自动选择算法；将所提新型连续空间强化学习方法用以解决倒立摆平衡控制、电梯群组调度、机器人自主导航等典型Markov决策问题以验证其可行性和有效性。研究成果不但可以将强化学习方法的应用领域扩大到连续空间，而且可以进一步深化和丰富现有的强化学习理论。

项目摘要

为将强化学习方法的应用领域扩大到大规模或连续空间，综合利用图论分析方法和迁移学习技术，对用于MDP值函数逼近的基函数自动构造问题进行研究。为提高策略梯度算法的收敛速度和梯度估计的精度，提出一类基于资格迹的折扣回报型增量自然AC学习算法。为充分利用经验样本数据中包含的有用信息，提出融合经验数据的AC学习。将基函数迁移和层次结构信息迁移相结合，提出基于谱方法的强化学习混合迁移算法。引入计算复杂度较低的拉普拉斯特征映射，提出基于谱图理论的启发式策略选择方法。利用迁移学习来提升强化学习的学习效率，提出基于ELM的多源迁移Q学习。针对非负稀疏表示存在计算复杂、重构精度低等问题，引入超完备块字典，设计了基于块非负稀疏表示的降维算法。针对数据的张量特性，提出基于张量距离补丁校准的降维算法。通过对数据集上的全部样本构造相似图和惩罚图，提出基于图的半监督判别局部排列降维算法。根据源任务数据是否可以访问，自适应地采用路径预测概率或成分预测概率进行相似度判定，提出基于相似度衡量的决策树自适应迁移。为充分利用源域包含的有用信息，同时避免无关信息可能导致的负迁移现象，提出加权多源TrAdaBoost。引入协同训练思想，提出多源Tri-Training迁移学习。通过为每个样本设计相应的分布权重系数，提出一类加权领域适应学习方法。通过为不同属性赋予一个相应的权重，提出加权属性迁移学习。针对属性与特征，属性与属性之间存在的语义关系，提出基于属性关系图正则化的直接属性预测模型。同时考虑属性与类别相关先验知识，提出基于知识挖掘的属性迁移学习模型。此外，根据国内外与本项目相关内容的发展情况，还对高斯核支持向量机的参数选择及性能优化、模糊积分等进行了研究。获教育部自然科学二等奖2项，授权发明专利3件，出版专著3部，培养博士后1名、研究生8名，发表/录用论文32篇（17篇SCI，13篇Ei）。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：10.11918/j.issn.0367-6234.201804030

发表时间：2019

DOI：

发表时间：2022

DOI：10.3799/dqkx.2020.083

发表时间：2020

DOI：

发表时间：2018

程玉虎的其他基金

批准号：61772532

批准年份：2017

资助金额：62.00

项目类别：面上项目

批准号：60974050

批准年份：2009

资助金额：31.00

项目类别：面上项目

相似国自然基金

构造性多元函数逼近及其应用

批准号：18670418

批准年份：1986

负责人：徐利治

学科分类：A0205

资助金额：0.55

项目类别：面上项目

高维空间径向基函数拟插值算子构造方法及其应用

批准号：11301252

批准年份：2013

负责人：姜自武

学科分类：A0503

资助金额：22.00

项目类别：青年科学基金项目

径向基函数逼近中的若干问题研究

批准号：11201423

批准年份：2012

负责人：马利敏

学科分类：A0503

资助金额：22.00

项目类别：青年科学基金项目

多元函数的稀疏逼近与随机逼近

批准号：11271199

批准年份：2012

负责人：叶培新

学科分类：A0205

资助金额：75.00

项目类别：面上项目

Markov决策过程值函数逼近的基函数自动构造

{{i.achievement_title}}

暂无此项成果

其他相关文献

玉米叶向值的全基因组关联分析

拥堵路网交通流均衡分配模型

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化

基于ESO的DGVSCMG双框架伺服系统不匹配扰动抑制

程玉虎的其他基金

基于属性学习的零样本图像分类研究

强化学习关键技术及其在机器人行为学习中的应用

相似国自然基金

Markov决策过程值函数逼近的基函数自动构造

{{i.achievement_title}}

暂无此项成果

其他相关文献

玉米叶向值的全基因组关联分析

拥堵路网交通流均衡分配模型

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

程玉虎的其他基金

基于属性学习的零样本图像分类研究

强化学习关键技术及其在机器人行为学习中的应用

相似国自然基金

基于ESO的DGVSCMG双框架伺服系统不匹配扰动抑制