基于双向强化学习的复杂过程安全策略最优化研究

基本信息
批准号:61873022
项目类别:面上项目
资助金额:63.00
负责人:李大字
学科分类:
依托单位:北京化工大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:张贝克,马昕,宋天恒,李论通,曹建辉,陈祝丹,王瑞琪,郑钰,雷程佳
关键词:
逆强化学习强化学习操作优化故障归因深度学习方法
结项摘要

Characteristics of Complex process, such as multiple operational factors, extensive internal and external disturbances and difficult mechanism analysis make it difficult to realize operational optimization under all the specifications. Existing solutions for operation optimization of complex process have high dependence on domain knowledge. An operational optimization method for complex process motivates the research in this project. Reinforcement learning technology is used for data-driven operation optimization and inverse reinforcement learning is used to find out the specific operation constraints to avoid faults. Four key aspects are investigated, which include: 1) Markov decision process modeling and solving for complex process operation optimization problems; 2) Operation strategy multi-objective optimization via reinforcement learning; 3) Inverse reinforcement learning for failure attribution; 4) Safety constraints construction for operation optimization problems based on inverse reinforcement learning. The potentially application of this research is to optimize the operation of data-driven (or partially data-driven) complex processes and to provide algorithmic assistance and reference for the qualitative operational optimization methods based on domain expertise and operational experience. The proposed approaches for these problems can not only contribute to the theory supports for reinforcement learning and inverse reinforcement learning theory and applications, but also provide an effective solution for the operation optimization of complex process.

复杂过程具有操作因素多、内外扰动影响广泛、机理分析困难等特性,无法兼顾每项指标实现操作最优化,现有解决方法对领域知识的依赖性较高。本项目旨在研究一种适用于复杂过程的操作优化方法,采用强化学习进行数据驱动的操作优化,采用逆强化学习进行故障归因,给出安全操作约束条件。本项目将从以下四个方面展开研究:1)复杂过程操作最优化问题的马尔可夫决策过程建模及问题求解方法;2)基于多目标强化学习的复杂系统操作过程优化;3)基于逆强化学习的故障归因;4)基于逆强化学习的安全约束条件优化问题构造方法。构建的知识系统可充分发挥历史数据的作用,为以专家知识和操作经验为主的定性操作优化方法提供算法上的辅助和参考,减少对专家知识的依赖性和提高处理故障归因任务的普适性。本项目研究的方法不仅为强化学习与逆强化学习方法及其应用提供理论支持,也为数据驱动(或部分数据驱动)的复杂过程的操作优化提供新的解决方案。

项目摘要

利用强化学习可以实现复杂过程的知识自动化系统,可在一定程度上减少对领域知识的依赖性,避免主观因素的影响。本项目从正向强化学习和逆向强化学习两个方面进行了研究。首先,研究了强化学习框架下的复杂系统操作最优化问题的马尔科夫决策过程建模及问题求解方法和基于多目标强化学习的复杂过程优化。提出了基于嵌套优化和正则对偶平均的在线稀疏时间差分学习、递归最小二乘时间差分方法等有利于在线学习的强化学习新方法,提高了数据的预测效率。在此基础上,围绕着复杂连续系统的控制和优化问题,提出了基于最大熵的软近端策略优化算法,提高了策略的探索性能和收敛速度。将多目标问题转化为单目标问题,提出了混合权重生成方法,建立了具有连续动作空间的多目标强化学习环境,所提出的方法在分批补料发酵过程、加氢裂化等过程上验证了所提出的强化学习算法可以很好地求解复杂系统的多目标优化问题。然而,基于强化学习的复杂系统应用研究发现强化学习的奖励函数人工设计困难,制约了算法的理论研究和应用。本项目首次提出了基于行为的最大熵逆强化学习、自适应生成对抗最大熵逆强化学习、最大边际逆强化学习、最大熵深度逆强化学习等方法,解决逆强化学习中专家演示有限、过拟合等问题,利用学习到的奖励函数进行策略优化。在此基础上,针对复杂化工过程,将逆强化学习和行为克隆结合提出了基于行为克隆的深度逆强化学习故障归因方法,增强模型的学习能力。本项目首次将复杂逆强化学习构造为安全约束条件的优化问题,采用线性或非线性求解奖励函数和优化策略,然后进行正向的复杂过程强化学习策略优化。本项目对强化学习算法理论发展和复杂工业过程优化问题求解具有重要的科学意义。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
2

面向云工作流安全的任务调度方法

面向云工作流安全的任务调度方法

DOI:10.7544/issn1000-1239.2018.20170425
发表时间:2018
3

基于分形维数和支持向量机的串联电弧故障诊断方法

基于分形维数和支持向量机的串联电弧故障诊断方法

DOI:
发表时间:2016
4

基于FTA-BN模型的页岩气井口装置失效概率分析

基于FTA-BN模型的页岩气井口装置失效概率分析

DOI:10.16265/j.cnki.issn1003-3033.2019.04.015
发表时间:2019
5

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022

李大字的其他基金

批准号:61573052
批准年份:2015
资助金额:65.00
项目类别:面上项目

相似国自然基金

1

基于复杂图知识表示的终身强化学习研究

批准号:61503178
批准年份:2015
负责人:王皓
学科分类:F0603
资助金额:22.00
项目类别:青年科学基金项目
2

基于热力学原理的复杂体系工艺过程强化机理及流程优化研究

批准号:20906106
批准年份:2009
负责人:张冰剑
学科分类:B0806
资助金额:19.00
项目类别:青年科学基金项目
3

基于深度强化学习的集成预测模型优化研究

批准号:71901204
批准年份:2019
负责人:刘明熹
学科分类:G0104
资助金额:19.00
项目类别:青年科学基金项目
4

基于支持向量机的复杂连续系统强化学习控制研究

批准号:60804022
批准年份:2008
负责人:王雪松
学科分类:F0303
资助金额:18.00
项目类别:青年科学基金项目