鲁棒与风险敏感的高维序列决策过程理论与算法研究

基本信息
批准号:61806202
项目类别:青年科学基金项目
资助金额:26.00
负责人:李海芳
学科分类:
依托单位:中国科学院自动化研究所
批准年份:2018
结题年份:2021
起止时间:2019-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:邵艳利,杨雪冰,汪天一,黄妍,田磊,李定,顾一凡
关键词:
高维的序列决策过程深度强化学习风险敏感鲁棒
结项摘要

With the tremendous development of Artificial Intelligence (AI), the demand for high-stakes applications has become increasing prominent. The research difficulties and hotpots are these high-stakes AI systems how to make robust and safe decisions in order to avoid the extreme policies and prevent the catastrophic consequences. Most real-world high-stakes AI systems can be modeled by high-dimensional sequential decision processes. Therefore, this project takes the high-dimensional sequential decision processes as the research objects, and aims to propose robust and risk-sensitive policy learning methods. Then, it plans to carry out research from three aspects: basic theory, key technologies and practical examples. Firstly, build a novel theory, which is to explore the equivalent relationship between the robust high-dimensional sequential decision processes and the risk-sensitive high-dimensional sequential decision processes, and investigate their unifying representation framework. Secondly, based on deep reinforcement learning, study the following key technologies to realize the policy robustness and avoid risks: robust policy learning algorithms, dynamic risk-sensitive policy learning algorithms, and robust and risk-sensitive policy learning algorithms of integrating the distributional reinforcement learning advantages for high-dimensional sequential decision processes. Finally, develop a dual-arm electric power robot of splicing and building wires prototype system to verify the proposed theory and key technologies. In conclusion, it is of great significance to explore the robust and risk-sensitive high-dimensional sequential decision processes theory and key technologies for sequential decision processes and deep reinforcement learning theoretical researches and engineering applications.

随着人工智能技术的巨大发展,高风险应用的需求日益明显。如何让这些高风险智能系统做出安全鲁棒的决策,规避极端策略,防止灾难性后果发生,是研究的难点和热点。很多高风险智能系统都可以用高维序列决策过程来建模表示。故本项目以高维序列决策过程为研究对象,旨在提出鲁棒与风险敏感的策略学习方法,从基础理论、关键技术和实例例证三方面展开研究。首先,挖掘鲁棒的高维序列决策过程与风险敏感的高维序列决策过程之间的等价关系,研究二者统一表示的核心理论框架;其次,基于深度强化学习,研究高维序列决策过程的鲁棒、动态风险敏感决策算法,以及融合分布式强化学习优势的鲁棒与风险敏感决策算法等关键技术,实现鲁棒决策,规避风险;最后,开发接搭线双臂电力机器人原型系统,验证提出的理论和关键技术。通过上述研究,探索鲁棒与风险敏感的高维序列决策过程的理论和关键技术,对高维序列决策过程以及深度强化学习的理论研究和工程应用具有重要意义。

项目摘要

随着人工智能技术的巨大发展,高风险的需求日益明显,如何让这些高风险的智能系统做出安全鲁棒的决策,规避极端策略,防止灾难性后果发生,是研究的难点和热点。.本项目针对这些问题,以高维序列决策过程为研究对象,主要从以下几个方面开展研究:1)高维鲁棒判别学习研究 2)高维分位数回归的分布式鲁棒优化 3)鲁棒聚类研究 4)利用雷达反射率图像序列过程,空气回声分类问题研究 5)高速铁路极点数识别研究 6)高维图像特征鲁棒提取研究。本项目将部分研究成果应用在图像以及检测任务中,获得较好的性能。.三年来,课题总体进展顺利,发表国际会议、期刊7篇,正在投稿论文4篇。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
2

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015
3

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

基于分形维数和支持向量机的串联电弧故障诊断方法

基于分形维数和支持向量机的串联电弧故障诊断方法

DOI:
发表时间:2016

李海芳的其他基金

批准号:61472270
批准年份:2014
资助金额:83.00
项目类别:面上项目
批准号:20605012
批准年份:2006
资助金额:9.00
项目类别:青年科学基金项目
批准号:61070077
批准年份:2010
资助金额:31.00
项目类别:面上项目
批准号:21775086
批准年份:2017
资助金额:64.00
项目类别:面上项目
批准号:31100994
批准年份:2011
资助金额:23.00
项目类别:青年科学基金项目
批准号:21275088
批准年份:2012
资助金额:80.00
项目类别:面上项目
批准号:30772006
批准年份:2007
资助金额:28.00
项目类别:面上项目

相似国自然基金

1

面向高维数据的稀疏与鲁棒线性判别分析模型与算法研究

批准号:61703370
批准年份:2017
负责人:李春娜
学科分类:F0603
资助金额:20.00
项目类别:青年科学基金项目
2

鲁棒性冲突决策机制的理论与设计方法研究

批准号:69404008
批准年份:1994
负责人:祝世京
学科分类:F0302
资助金额:6.00
项目类别:青年科学基金项目
3

快速、可信的大规模连续空间序列决策过程理论与算法研究

批准号:61906197
批准年份:2019
负责人:赵美静
学科分类:F0601
资助金额:24.00
项目类别:青年科学基金项目
4

稀疏相位检索的鲁棒优化理论与算法研究

批准号:11801130
批准年份:2018
负责人:阎爱玲
学科分类:A0405
资助金额:25.00
项目类别:青年科学基金项目