Reinforcement learning (RL), which studies how an agent ought to act in an unknown environment so as to maximize the cumulative rewards, is a powerful machine learning paradigm for sequential decision making. The policy search approach is a flexible and powerful reinforcement learning method particularly for control problems with continuous actions spaces...However, previous policy search approaches are problematic to solving complex control tasks in the large-scale environment, the limitations are shown as follows: ① The state representation relies on hand-crafted features, which is limited when the expert knowledge is not enough facing high-dimensional complex states spaces; ② Before application of policy search methods require specified, low-dimensional policy model, which limits the generality of policy facing general complex tasks; ③ By their nature, complex tasks presents a considerable number of local optima, thus a poor local optima might be a big issue. In order to solve the above mentioned problems, we propose a novel policy search framework for complex control tasks in large scale environments. More specifically, we combine the following three new ideas and give a highly practical and efficient policy search framework: ① Constructing deep neural networks for automatic representation of the state directly from the high-dimensional sensory input in large-scale environments; ② Exploring recurrent and deep architectures for complex policy with high generality; ③ Design guided samples for policy search to direct policy learning and avoid poor local optima. ..Finally, we get a novel reinforcement learning architecture for complex tasks in large-scale environments. This research provides key techniques for robot control in the real-world problems,and also sets solid foundation for our further research.
强化学习是机器学习领域中解决连续决策问题的重要学习方法,研究智能体如何在未知环境中做出决策以获得最大累积回报。策略搜索是强化学习领域中解决连续动作空间的决策问题最为灵活有效的方法之一。然而,针对大规模环境下复杂任务,现有策略搜索方法存在以下局限:①受限于手工特征设计,难以显式描述高维复杂状态变量;②受限于针对指定任务的专门策略模型,难以表达复杂任务的策略;③受限目标函数的非凸性,难以寻找全局最优策略解。为了解决上述问题,本课题拟构建一套面向大规模环境下复杂任务的策略搜索强化学习研究方案。具体内容包括:①大规模环境下状态变量的自主表达;②强泛化能力的深度策略模型;③面向全局最优解的引导型策略搜索算法。通过整合上述新技术,提出一套完整的适用于大规模环境下复杂任务的强化学习方案,为实际应用中的智能控制问题提供理论依据与技术指导,并为下一步深入研究打下基础。
强化学习是机器学习领域中解决连续决策问题的重要学习方法,研究智能体如何在未知环境中做出决策以获得最大累积回报。策略搜索是强化学习领域中解决连续动作空间的决策问题最为灵活有效的方法之一。本课题针对强化学习在解决大规模复杂任务中的实际需求,构建了一套适用于大规模环境中复杂任务的实用型策略搜索强化学习系统理论体系,并根据具体应用场景,提出了大规模环境下解决复杂决策任务的一系列具体的策略搜索强化学习算法。本项目中强化学习算法的提出为实际应用中的智能控制问题提供有力的技术支撑。.面对强化学习在解决大规模复杂任务的实际需求,项目组利用深度神经网络描述智能体感知的状态变量并构建具有深度递归型结构的策略模型,构建了一套适用于大规模环境中复杂任务的实用型策略搜索强化学习模型框架。在此模型框架下,根据实际应用场景,提出了相应解决方案:(一)实际应用中状态转移函数与奖赏函数通常是与时间相关的,项目组提出了在线策略梯度算法,并为此方法提供了理论支持。(二)策略梯度的估计是影响算法稳定性的重要因素,项目组将影响策略梯度稳定性的不良因素直接引入到目标中,提出了梯度方差正则化的策略梯度算法。(三)面对强化学习易陷入局部最优问题,项目组利用积极学习的基本想法,提出了能够避免不好的局部最优解的引导型策略搜索算法。(四)在采集样本预算一定的情况下,项目组提出了一种基于生成对抗网络的有效的模型化策略搜索学习方法,所提算法在样本采集的预算有限或样本数量较少时,具有很大优势。(五)受人类进行动作选择的机制所启发,项目组引入了意愿及动机信息,提出了强化学习中受意愿控制的策略学习方法,此方法更加符合实际情况,更符合人类动作选择模式,同时也更符合智能化的标准。.此外,在上述理论研究基础上,项目组还开展了在机器人控制、数字艺术渲染、云计算的智能任务调度、图像处理及生物特征识别等方面的应用研究,研究成果表明强化学习在相应的应用领域中展现了良好的性能及优势。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
低轨卫星通信信道分配策略
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化
复杂海洋环境下面向目标搜索任务的AUV路径规划方法研究
策略搜索强化学习方法及在移动机器人运动控制中的应用
面向高动态环境的强化学习策略搜索理论与方法研究
网格环境下空间信息索引机制与搜索策略研究