Markov decision processes (MDP) form an important class of optimal control theory for stochastic dynamic systems. Since such a kind of stochastic models can analyze and solve many practical problems, they receive extensive attentions and studies in recent years, which are in fact a hot branch in the area of stochastic optimal control nowadays. Based on the recent developments on the theory of optimal control and stochastic dynamic systems, this project aim to study risk analysis and optimal control problems for continuous-time MDP with finite horizon loss,infinite horizon discounted loss,first passage loss and long-run average loss. The risk measures mainly include VaR, AVaR, coherent risk measure, and risk-sensitive criteria. The research contents are as follows; (1) the existence, the structure and the characteristic of risk optimal policies under various risk measures; (2)the algorithms for computing risk optimal policies under various risk measures; (3)the simulations and the applications of the developed results to practical problems. The research contents above are advanced, initiative and practical. By the accomplishment of this research, the theory of stochastic optimal control will make new progress.
马氏决策过程(MDP)是一类随机动态系统的最优控制理论,适合分析和解决许多实际问题,近年来得到广泛的关注和研究, 是随机最优控制领域的热门分支。本项目将基于最优控制和随机动态系统理论的最新成果,研究具有丰富实际背景和应用意义的连续时间参数MDP的风险分析和最优控制问题,考虑有限阶段损失、无限阶段折扣损失、首达目标损失和长期平均损失的风险分析及其优化,风险准则主要包括:VaR,AVaR,一致风险测度和风险灵敏准则等。研究内容有:(1)风险最优策略的存在性、结构和特征;(2)风险最优策略的计算方法;(3)具体实际模型的计算机模拟和应用。本项目上述研究内容具有前沿性、开创性和实用性,完成这些研究内容将推动随机最优控制理论的新进展。
本项目研究连续时间参数MDP的风险最优控制问题。在项目执行期间(2015.01-2018.12),我们对SMDP、CTJMDP、PDMDP等三类连续时间参数MDP的风险最优控制问题进行了认真细致的研究并取得了重要进展,风险准则涉及VAR准则、AVAR准则、期望效用准则、概率准则和方差准则,累积损失(或费用)类型包括有限阶段损失、无限阶段折扣损失、首达目标损失和长期平均损失,分别得到了相应风险最优控制问题的最优策略的特征刻画、存在性条件和计算方法。 项目组共发表了18篇相关论文,其中16篇论文SCI收录,发表期刊包括《SIAM J. Optim.》、《SIAM J. Control Optim.》、《Math. Oper. Res. 》、《Adv. Appl. Probab.》等优化、运筹学、应用概率领域的优秀主流期刊,获得教育部2016年度高等学校科学研究优秀成果奖自然科学奖二等奖和国际会议WCICA 2016“何潘清漪论文奖”等2项科研奖励,培养博士后研究人员2名、博士研究生6人、硕士研究生14名。项目组主要研究成果得到了同行专家的较高评价,特别,SMDP平均在险价值准则的工作被国际著名SCI杂志《SIAM J. Optim.》的审稿人评价为“… and so their paper makes a notable methodological contribution … for a new class of problems....”,SMDP多目标期望效用准则的工作被概率论领域主流杂志《Adv. Appl. Probab.》的审稿人评价为“... this paper is a novel application of the convex analytic approach to an important class of problems....”。本项目的研究成果丰富和发展了连续时间参数MDP的风险控制理论,拓展了MDP理论的应用领域。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
货币政策与汇率制度对国际收支的影响研究
保险风险理论中的随机最优控制问题
保险风险理论中的几个随机最优控制问题
时滞随机系统的最优控制问题及其应用
随机最优控制问题与随机哈密顿系统