Currently, deep reinforcement learning (DRL) mainly focuses on single-agent sequential decision making methods based on the Markov decision processes (MDPs). However, there also exist a lot of partially observable MDP (POMDP) tasks and multi-agent interactive applications in realistic scenarios, and state-of-the-art methods have drawbacks like their demands for massive amounts of training data and long time in training models, as well as weak generalization ability when dealing with them. To alleviate these problems, this project studies single-agent and multi-agent DRL theory and methods for POMDPs. It includes the following four aspects: first, we enrich the large-scale POMDP approximate planning theory, and then design efficient POMDP offline and online planning algorithms; second, we study new DRL theory and methods for POMDPs by combining with POMDP planning, prioritized value iteration networks, Bayesian filter, etc.; third, we design novel planning-free DRL methods by combining with weighted double Q-learning, multiple gating, skip connection, etc.; fourth, based on techniques like mixed experience replay, Bayesian learning, policy distillation and opponent modeling, we design new multi-agent DRL methods. The performance of the above methods will be verified via several simulation platforms. The development of this project will help to improve the planning and learning abilities of single agent and multiple agents, and also can provide new ideas for applied research in multiple domains, such as automation and man-machine dialog.
目前深度强化学习(DRL)主要研究基于马氏决策过程(MDP)的单智能体序贯决策方法。然而,现实场景中还存在大量部分可观察的MDP(POMDP)任务和多智能体交互应用,现有方法在处理它们时普遍存在训练数据的需求量大、模型的训练时间长和泛化能力不足等缺点。对此,本项目研究POMDP中的单/多智能体DRL理论及方法。具体如下:(1)完善大空间POMDP近似规划理论,设计高效的POMDP离线和在线规划方法;(2)结合POMDP规划、优先级值迭代网络、贝叶斯过滤器等,研究基于规划的DRL理论及方法;(3)结合带权重的双Q学习、多重门限、跳跃连接等,设计免规划的DRL方法;(4)基于混合式经验重放、贝叶斯学习、策略蒸馏、对手建模等技术,设计多智能体DRL方法。以上方法的性能将通过多个仿真平台验证。本项目的开展将有助于提高单/多智能体的规划和学习能力,并为自动控制、人机对话等多领域的应用研究提供新思路。
训练数据需求量大、模型训练时间长和泛化能力不足是现有深度强化学习技术面临的主要挑战。本项目(1)以覆盖数为数学工具,针对部分可观察的马尔可夫决策过程(POMDP),设计了高效的在线规划算法,并分析了算法在连续状态和观察空间POMDP中的收敛性。(2)以贝叶斯统计理论为基础,基于不确定优先原则,设计了一种基于模型的贝叶斯乐观探索算法,并在理论上证明了当模型属于有限维度的再生核希尔伯特空间时,该算法是采样高效的。(3)以值迭代网络为基础,针对现有深度强化学习方法生成的策略泛化能力较弱的问题,设计了针对部分可观察模型的深度循环策略网络和规划网络模型,提升了算法在具有不规则结构的任务中的规划效率和泛化能力。(4)以迁移学习为手段,针对现实环境中常遇到的部分可观察性、非稳态性等挑战,设计了一系列深度强化学习算法,提升了交互样本的利用效率和策略的泛化能力。(5)以生成对抗网络为手段,针对复杂深度强化学习任务的奖励函数难设置问题,设计了一系列从少量专家数据中学习奖励函数,进而学习策略的生成对抗模仿学习方法。(6)基于分布式POMDP模型,采用队友建模、子注意力机制、任务关系建模等技术,从通信效率、协调效率、样本效率等多个方面,设计了一系列高效的合作型多智能体深度强化学习算法,并用于解决复杂的动态算法配置问题。以上算法的高效性已通过SMARTS自动驾驶平台、Atari学习环境、MuJoCo物理引擎、星际争霸微操基准等多个仿真平台进行验证。基于上述成果,在AAAI、IJCAI、NeurIPS、《Autonomous Agents and Multi-agent Systems》、《Journal of Computer Science and Technology》、《计算机学报》、《软件学报》等会议和期刊发表学术论文29篇(其中,CCF-A类论文18篇,CCF-B类论文4篇),申请中国发明专利10项,已授权7项,登记软件著作权6项。本项目培养了多名研究生,其中已毕业的硕士生12名,在读博士生2名,在读硕士生12名。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
面向云工作流安全的任务调度方法
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
物联网中区块链技术的应用与挑战
基于部分感知模型的贝叶斯强化学习理论及方法
非可微深度学习理论研究
面向tableau模型的逻辑强化学习理论及方法研究
基于模糊逻辑的大规模强化学习理论及方法