多Agent的通信行为是目前国际上研究多Agent决策问题中具有挑战性的新课题,其图形表述和模型求解尤为引人瞩目。目前的交互式动态影响图(I-DIDs)忽略了Agent的通信能力,主要通过对其他Agent模型的猜测和识别来推断其可能的决策,这存在着主观性和不确定性,导致模型效用降低、求解困难、应用受限。本项目在前期工作的基础上,将Agent的通信行为引入I-DIDs,应用概率图模型理论、部分可观测马尔可夫决策过程性质和最大奖励期望值原理,建模通信交互式动态影响图(Com-I-DIDs);根据值等价和行为等价原理重构其他Agent模型节点的条件概率模型,提出新的模型求解方法,降低计算难度,确保模型解的最优性;根据Cooper价值节点转化法,通过对其他Agent行为的灵敏度分析探索多Agent相互建模嵌套层数;开发Com-I-DIDs决策软件,以自动小车存取系统为例进行应用研究。
.针对以往交互式动态影响图(I-DIDs)忽略了Agent的通信能力,从而导致模型效用降低、求解困难、应用受限等问题。本项目在前期工作的基础上,将Agent的通信行为引入到I-DIDs,应用概率图模型理论、部分可观测马尔可夫决策过程性质和最大奖励期望值原理,建立基于I-DID的通信交互式动态影响图(Com-I-DID)模型。为解决通信交互式动态影响图和交互式动态影响图的候选模型空间太大问题,发明了两种减少模型空间的算法:第一种算法聚集了行为等价类并选择性的更新模型,只更新那些在下一个时间片有不同预测行为的模型;第二种算法进一步压缩了模型空间,将每一个时间片动作相同的模型进行聚类。为进一步简化计算,提出了一种用双压缩方法的近似求解算法。本项目以自动小车存取系统为例进行了通信交互式动态影响图(Com-I-DID)模型的应用仿真实验。. 此外,本项目研究中,进一步探讨了交互式动态影响图I-DID和通信交互式动态影响图(Com-I-DID)在原理、模型和算法方面的若干共性,并提出一系列更具有普遍性的方法。这些方法具有在空间和时间上同时对模型进行聚类的能力,采用面向对象设计的概念来优化自我扩展和自我压缩;提出一种基于部分决策树的模型求解算法,并改进了利用部分策略树来判断行为等价的方法,发展了一种叫做增长式比较的策略;提出基于分段行为等价的模型改进算法;提出基于信度-行为的交互式动态影响图的近似算法。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
涡度相关技术及其在陆地生态系统通量研究中的应用
论大数据环境对情报学发展的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
拥堵路网交通流均衡分配模型
基于数据驱动的多智能体交互式动态影响图算法研究与应用
基于值等价的交互式动态影响图的求解方法研究与应用
基于交互式动态影响图的未知对手模型学习
基于交互式动态影响图的光储微网运行控制研究