深度自适应动态规划理论方法和应用

基本信息
批准号:61573353
项目类别:面上项目
资助金额:66.00
负责人:赵冬斌
学科分类:
依托单位:中国科学院自动化研究所
批准年份:2015
结题年份:2019
起止时间:2016-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:朱圆恒,吕乐,王滨,夏中谱,卜丽,张启超,王海涛,李栋
关键词:
线性再励学习控制智能学习控制实际应用神经网络学习控制拟人智能学习控制无监督学习控制
结项摘要

Pursuing higher “intelligent” systems has become the tendency of current artificial intelligence. It is expected that the new technique is capable to perceive some complicated problems and make decisions properly. For recent years, deep learning and adaptive dynamic programming/reinforcement learning have made remarkable contribution in the field of “perception” and “decision” respectively. Deep learning has brought new techniques to perceiving high-dimensional data and processing complex information, while adaptive dynamic programming has provided advanced solutions for nonlinear system control problems. Therefore, the combination of the above two methods has been essential to advanced artificial intelligence, and has also become the research hotspot currently. Therefore, our project aims to put deep learning and adaptive dynamic programming together, to provide solutions for complicated systems which have complex information as their input. In theory and methodology, complex information will be transformed into valid character representation by deep models, and then optimal or suboptimal controllers will be computed by adaptive dynamic programming with its adaptive learning ability. Meanwhile, convergent and stable analysis will be given. In experiment and application, intelligent driving will be the main objective and auto driving simulator will be established. The proposed deep adaptive dynamic programming will be studied and compared experimentally under different scenarios, which will lay the foundation for the application of autonomous unmanned driving.

当前人工智能的发展趋势是追求更高的“智慧”,能够实现对一些复杂问题的感知和决策。近年来发展的深度学习和自适应动态规划/强化学习分别在“感知”和“决策”两个方面做出了突出的贡献。深度学习为高维数据感知和复杂信息处理带来了新的技术;自适应动态规划/强化学习提供了先进的解决复杂非线性系统的控制方法。因此,将上述两种技术结合起来成为开发高级人工智能的关键、并成为当前研究热点。在本项目中,我们拟将深度学习和自适应动态规划结合起来,解决一类具有复杂信息输入的智能控制问题。在理论和方法方面,提出利用深度模型将复杂信息转化成有效的特征表示,借助自适应动态规划的自适应学习能力实现最优或近似最优控制的方法,并给出收敛性和系统稳定性的理论分析。在实验和应用方面,以智能驾驶作为主要研究目标,建立汽车智能驾驶仿真平台,对所提出的深度自适应动态规划方法进行不同场景下的实验验证和比较分析,奠定汽车无人驾驶的应用基础。

项目摘要

以深度自适应动态规划(DADP)/强化学习(DRL)理论和方法为主要研究内容,及时详细综述了该领域的研究进展,深入研究了深度学习,自适应动态规划/强化学习的方法和理论,结合深度学习的感知和强化学习的决策优点,提出了多种有效的DADP/DRL方法,并将所提出的理论方法应用于自动驾驶和视频游戏等领域。在KITTI等公开数据集、仿真平台和实际驾驶平台上验证了所提出方法的有效性。.具体成果包括:1)提出多种深度自适应动态规划/强化学习方法,如引入注意力机制的深度强化学习方法(获得IEEE Trans年度优秀论文),面向星际争霸微操的强化学习和课程迁移学习融合方法(热点论文、Nature论文引用)等。撰写中文综述论文2篇,下载量过万,有力推动国内相关领域的发展。2)基于深度自适应动态规划/强化学习方法实现在多种场景下的汽车智能驾驶,多种场景下的游戏AI。获得中国AI+创新创业大赛一等奖等国内国际比赛奖项8次。3)在国内外核心期刊上发表论文 23 篇,在重要国际学术会议发表论文31篇。包括IEEE Transactions论文13篇,ESI高被引和热点论文6篇,优秀论文和优秀提名论文5篇。在权威公众号上及时发表深度强化学习的最新研究进展评述若干次。以首席客座编委在领域顶刊上组织专刊2次。4)申请专利3项,获得软件著作登记权1项。5)培养博士研究生毕业7名,硕士研究生毕业1名。6)在2017年的世界智能大会等上做“深度强化学习”方向的邀请报告20余次;任领域权威国际会议2019年IJCNN的程序委员会协主席等10余次。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

DOI:
发表时间:2020
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

DOI:
发表时间:2018
5

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

DOI:10.11999/JEIT210095
发表时间:2021

赵冬斌的其他基金

批准号:61273136
批准年份:2012
资助金额:80.00
项目类别:面上项目
批准号:60874043
批准年份:2008
资助金额:30.00
项目类别:面上项目
批准号:60475030
批准年份:2004
资助金额:23.00
项目类别:面上项目

相似国自然基金

1

基于多智能体深度自适应动态规划的优化控制方法与应用

批准号:61803371
批准年份:2018
负责人:张启超
学科分类:F0301
资助金额:27.00
项目类别:青年科学基金项目
2

基于自适应动态规划的波形优化方法及在雷达通信中的应用

批准号:60874108
批准年份:2008
负责人:汪晋宽
学科分类:F0303
资助金额:30.00
项目类别:面上项目
3

复杂曲面拓扑自适应刀具轨迹规划的动态约束界面演化方法与应用

批准号:50805093
批准年份:2008
负责人:庄春刚
学科分类:E0510
资助金额:20.00
项目类别:青年科学基金项目
4

基于自适应动态规划的脉冲系统优化方法研究

批准号:61104006
批准年份:2011
负责人:王小华
学科分类:F0301
资助金额:24.00
项目类别:青年科学基金项目