Reinforcement learning is an effective method for solving Markov decision problems with unknown model. For reinforcement learning in continuous space based on linear value function approximation, the reasonable construction of basis functions influences the approximation accuracy of value function for Markov decision process (MDP) and further influences the performance of reinforcement learning methods. Therefore, the automatic construction method of basis functions for MDP value function approximation will be researched using the analysis idea and method of graph theory in the project. The main contents in our study include the following aspects. In order to embody the discrepancy between actions and to describe comprehensively the basic topology structure of MDP environment, a building method of a state-action graph for continuous space is proposed. In order to improve approximation accuracy and generalization ability of MDP value function, an automatic construction method of basis functions defined on the state-action graph is proposed. In order to decrease the computational and storage costs and to improve the learning efficiency of the MDP value function approximation, a sparsity-oriented automatic selection algorithm of basis functions is designed. In addition, the proposed new reinforcement learning methods in continuous space are applied to some typical Markov decision problems such as the balancing control problem of an inverted pendulum, elevator group scheduling problem and the autonomous navigation problem of a mobile robot to verify its feasibility and validity. The research fruits not only can extend the application domain of reinforcement learning methods to continuous space, but also can further deepen and enrich the present reinforcement learning theory.
强化学习是求解模型未知的Markov决策问题的有效方法。对于基于线性值函数逼近的连续空间强化学习来说,基函数的合理构造将直接影响Markov决策过程(MDP)值函数的逼近精度,进而影响强化学习方法的性能。为此,本项目拟利用图论的分析思想和方法,研究MDP值函数逼近的基函数自动构造方法。内容包括:为体现动作之间的差异性和全面描述MDP环境的基本拓扑结构,构建连续空间状态-动作图;为提高MDP值函数的逼近精度和泛化能力,研究状态-动作图上的基函数自动构造方法;为减小计算和存储代价,提高MDP值函数逼近的学习效率,设计面向稀疏化的基函数自动选择算法;将所提新型连续空间强化学习方法用以解决倒立摆平衡控制、电梯群组调度、机器人自主导航等典型Markov决策问题以验证其可行性和有效性。研究成果不但可以将强化学习方法的应用领域扩大到连续空间,而且可以进一步深化和丰富现有的强化学习理论。
为将强化学习方法的应用领域扩大到大规模或连续空间,综合利用图论分析方法和迁移学习技术,对用于MDP值函数逼近的基函数自动构造问题进行研究。为提高策略梯度算法的收敛速度和梯度估计的精度,提出一类基于资格迹的折扣回报型增量自然AC学习算法。为充分利用经验样本数据中包含的有用信息,提出融合经验数据的AC学习。将基函数迁移和层次结构信息迁移相结合,提出基于谱方法的强化学习混合迁移算法。引入计算复杂度较低的拉普拉斯特征映射,提出基于谱图理论的启发式策略选择方法。利用迁移学习来提升强化学习的学习效率,提出基于ELM的多源迁移Q学习。针对非负稀疏表示存在计算复杂、重构精度低等问题,引入超完备块字典,设计了基于块非负稀疏表示的降维算法。针对数据的张量特性,提出基于张量距离补丁校准的降维算法。通过对数据集上的全部样本构造相似图和惩罚图,提出基于图的半监督判别局部排列降维算法。根据源任务数据是否可以访问,自适应地采用路径预测概率或成分预测概率进行相似度判定,提出基于相似度衡量的决策树自适应迁移。为充分利用源域包含的有用信息,同时避免无关信息可能导致的负迁移现象,提出加权多源TrAdaBoost。引入协同训练思想,提出多源Tri-Training迁移学习。通过为每个样本设计相应的分布权重系数,提出一类加权领域适应学习方法。通过为不同属性赋予一个相应的权重,提出加权属性迁移学习。针对属性与特征,属性与属性之间存在的语义关系,提出基于属性关系图正则化的直接属性预测模型。同时考虑属性与类别相关先验知识,提出基于知识挖掘的属性迁移学习模型。此外,根据国内外与本项目相关内容的发展情况,还对高斯核支持向量机的参数选择及性能优化、模糊积分等进行了研究。获教育部自然科学二等奖2项,授权发明专利3件,出版专著3部,培养博士后1名、研究生8名,发表/录用论文32篇(17篇SCI,13篇Ei)。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
拥堵路网交通流均衡分配模型
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化
基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制
构造性多元函数逼近及其应用
高维空间径向基函数拟插值算子构造方法及其应用
径向基函数逼近中的若干问题研究
多元函数的稀疏逼近与随机逼近