针对大规模环境下复杂任务的策略搜索强化学习方法研究

基本信息

批准号：61502339

项目类别：青年科学基金项目

资助金额：20.00

负责人：赵婷婷

学科分类：

依托单位：天津科技大学

批准年份：2015

结题年份：2018

起止时间：2016-01-01 - 2018-12-31

项目状态：已结题

项目参与者：杨巨成,赵希,任德华,张晓丽,张晓元,房珊珊

关键词：

状态表示引导型样本深度策略模型强化学习策略搜索

结项摘要

Reinforcement learning (RL), which studies how an agent ought to act in an unknown environment so as to maximize the cumulative rewards, is a powerful machine learning paradigm for sequential decision making. The policy search approach is a flexible and powerful reinforcement learning method particularly for control problems with continuous actions spaces...However, previous policy search approaches are problematic to solving complex control tasks in the large-scale environment, the limitations are shown as follows: ① The state representation relies on hand-crafted features, which is limited when the expert knowledge is not enough facing high-dimensional complex states spaces; ② Before application of policy search methods require specified, low-dimensional policy model, which limits the generality of policy facing general complex tasks; ③ By their nature, complex tasks presents a considerable number of local optima, thus a poor local optima might be a big issue. In order to solve the above mentioned problems, we propose a novel policy search framework for complex control tasks in large scale environments. More specifically, we combine the following three new ideas and give a highly practical and efficient policy search framework: ① Constructing deep neural networks for automatic representation of the state directly from the high-dimensional sensory input in large-scale environments; ② Exploring recurrent and deep architectures for complex policy with high generality; ③ Design guided samples for policy search to direct policy learning and avoid poor local optima. ..Finally, we get a novel reinforcement learning architecture for complex tasks in large-scale environments. This research provides key techniques for robot control in the real-world problems，and also sets solid foundation for our further research.

强化学习是机器学习领域中解决连续决策问题的重要学习方法，研究智能体如何在未知环境中做出决策以获得最大累积回报。策略搜索是强化学习领域中解决连续动作空间的决策问题最为灵活有效的方法之一。然而，针对大规模环境下复杂任务，现有策略搜索方法存在以下局限：①受限于手工特征设计，难以显式描述高维复杂状态变量；②受限于针对指定任务的专门策略模型，难以表达复杂任务的策略；③受限目标函数的非凸性，难以寻找全局最优策略解。为了解决上述问题，本课题拟构建一套面向大规模环境下复杂任务的策略搜索强化学习研究方案。具体内容包括：①大规模环境下状态变量的自主表达；②强泛化能力的深度策略模型；③面向全局最优解的引导型策略搜索算法。通过整合上述新技术，提出一套完整的适用于大规模环境下复杂任务的强化学习方案，为实际应用中的智能控制问题提供理论依据与技术指导，并为下一步深入研究打下基础。

项目摘要

强化学习是机器学习领域中解决连续决策问题的重要学习方法，研究智能体如何在未知环境中做出决策以获得最大累积回报。策略搜索是强化学习领域中解决连续动作空间的决策问题最为灵活有效的方法之一。本课题针对强化学习在解决大规模复杂任务中的实际需求，构建了一套适用于大规模环境中复杂任务的实用型策略搜索强化学习系统理论体系，并根据具体应用场景，提出了大规模环境下解决复杂决策任务的一系列具体的策略搜索强化学习算法。本项目中强化学习算法的提出为实际应用中的智能控制问题提供有力的技术支撑。.面对强化学习在解决大规模复杂任务的实际需求，项目组利用深度神经网络描述智能体感知的状态变量并构建具有深度递归型结构的策略模型，构建了一套适用于大规模环境中复杂任务的实用型策略搜索强化学习模型框架。在此模型框架下，根据实际应用场景，提出了相应解决方案：（一）实际应用中状态转移函数与奖赏函数通常是与时间相关的，项目组提出了在线策略梯度算法，并为此方法提供了理论支持。（二）策略梯度的估计是影响算法稳定性的重要因素，项目组将影响策略梯度稳定性的不良因素直接引入到目标中，提出了梯度方差正则化的策略梯度算法。（三）面对强化学习易陷入局部最优问题，项目组利用积极学习的基本想法，提出了能够避免不好的局部最优解的引导型策略搜索算法。（四）在采集样本预算一定的情况下，项目组提出了一种基于生成对抗网络的有效的模型化策略搜索学习方法，所提算法在样本采集的预算有限或样本数量较少时，具有很大优势。（五）受人类进行动作选择的机制所启发，项目组引入了意愿及动机信息，提出了强化学习中受意愿控制的策略学习方法，此方法更加符合实际情况，更符合人类动作选择模式，同时也更符合智能化的标准。.此外，在上述理论研究基础上，项目组还开展了在机器人控制、数字艺术渲染、云计算的智能任务调度、图像处理及生物特征识别等方面的应用研究，研究成果表明强化学习在相应的应用领域中展现了良好的性能及优势。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：10.19328/j.cnki.2096-8655.2022.02.002

发表时间：2022

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：

发表时间：2020

DOI：10.1360/SSM-2020-0035

发表时间：2020

赵婷婷的其他基金

批准号：81800647

批准年份：2018

资助金额：21.00

项目类别：青年科学基金项目

批准号：31901593

批准年份：2019

资助金额：22.00

项目类别：青年科学基金项目

批准号：81473526

批准年份：2014

资助金额：73.00

项目类别：面上项目

批准号：51805311

批准年份：2018

资助金额：25.00

项目类别：青年科学基金项目

批准号：30872344

批准年份：2008

资助金额：35.00

项目类别：面上项目

批准号：81571537

批准年份：2015

资助金额：54.00

项目类别：面上项目

批准号：21703255

批准年份：2017

资助金额：26.00

项目类别：青年科学基金项目

批准号：30200277

批准年份：2002

资助金额：19.00

项目类别：青年科学基金项目

批准号：11501446

批准年份：2015

资助金额：18.00

项目类别：青年科学基金项目

批准号：31800888

批准年份：2018

资助金额：26.00

项目类别：青年科学基金项目

批准号：30801539

批准年份：2008

资助金额：20.00

项目类别：青年科学基金项目

相似国自然基金

复杂海洋环境下面向目标搜索任务的AUV路径规划方法研究

批准号：51909252

批准年份：2019

负责人：姚鹏

学科分类：E1102

资助金额：27.00

项目类别：青年科学基金项目

策略搜索强化学习方法及在移动机器人运动控制中的应用

批准号：61603150

批准年份：2016

负责人：王滨

学科分类：F0306

资助金额：19.00

项目类别：青年科学基金项目

面向高动态环境的强化学习策略搜索理论与方法研究

批准号：61876077

批准年份：2018

负责人：俞扬

学科分类：F0603

资助金额：64.00

项目类别：面上项目

网格环境下空间信息索引机制与搜索策略研究

批准号：40771165

批准年份：2007

负责人：谢忠

学科分类：D0114

资助金额：37.00

项目类别：面上项目

针对大规模环境下复杂任务的策略搜索强化学习方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

一种基于多层设计空间缩减策略的近似高维优化方法

"多对多"模式下GEO卫星在轨加注任务规划

二维FM系统的同时故障检测与控制

扶贫资源输入对贫困地区分配公平的影响

现代优化理论与应用

赵婷婷的其他基金

基于肾小球转录组学和蛋白质组学研究CORO1C调节糖尿病肾病的分子机制

ShERF1b转录因子调控甘蔗蔗糖积累的分子机理

糖肾方对糖尿病肾病蛋白聚糖介导肾脏脂质沉积的机制研究

高性能呼吸传感器功能层悬空纳米纤维的定域定向制造基础研究

PD-1分子诱导HBV特异性CD8+T淋巴细胞凋亡的机制研究

肝X受体α调控慢性病毒感染中CD8+T细胞功能耗竭的机制研究

等离子体共振诱导双光子荧光纳米探针对细胞内pH值波动的实时影像分析

乳腺癌新型基因疫苗的分子设计研究

基于植物疾病控制的非光滑动力学模型的研究

多巴胺神经元调控工作记忆的神经环路机制的研究

柴胡皂苷－d通过葡萄糖胺聚糖调控TGF－β1活性的机理研究

相似国自然基金