基于贝叶斯推理的模糊逻辑强化学习模型研究

基本信息

批准号：61272005

项目类别：面上项目

资助金额：61.00

负责人：刘全

学科分类：

依托单位：苏州大学

批准年份：2012

结题年份：2016

起止时间：2013-01-01 - 2016-12-31

项目状态：已结题

项目参与者：傅启明,徐云龙,王辉,陈冬火,杨旭东,肖飞,于俊,周鑫,孙洪坤

关键词：

贝叶斯推理强化学习模糊逻辑tableau

结项摘要

In allusion to the problem of "the curse of dimensionality" and balancing the exploitation and exploration in reinforcement learning, the project put forward the fuzzy logical reinforcement learning based on bayesian inference. The main idea is combining the reinforcement learning, fuzzy logic and bayesian inference, which uses fuzzy logic method to represent the state, action and some other things, constructs a fuzzy inference system based on the distribution of state transition and reward got by bayesian inference, optimizes the action selection policy, balances the exploitation and exploration, and modifies the inference system adaptively to maximize the performance of the algorithm. And at the same time, the project plans to use the proposed method to solve the problem of slow convergence or non-convergence of the algorithm used in deep web, which is caused by the high dimension of state or the uncertainties of semantic information. Therefore, the research of the fuzzy logic reinforcement learning based on bayesian inference both has certain theoretical value and broad application prospects.

本项目拟针对强化学习领域在大规模状态空间中"维数灾"以及在学习过程中平衡探索与利用的问题，提出基于贝叶斯推理的模糊逻辑强化学习方法。主要思想是将强化学习与模糊逻辑及贝叶斯推理相结合，采用模糊逻辑方法表示状态、动作等方面的知识，结合贝叶斯推理描述模型中状态转移及奖赏值的分布性，建立一个模糊推理系统，优化学习过程中的动作选择策略，平衡动作选择的探索与利用的问题，并在学习过程中自适应修正推理系统，以达到更大程度提高强化学习算法延展性及收敛性的目的。同时，拟将模糊逻辑强化学习算法用于大规模Deep Web网络信息搜索中，解决由于状态空间的高维性及语义信息的不确定性引起的 Deep Web搜索中收敛速度慢甚至无法收敛的问题。因此，基于贝叶斯推理的模糊逻辑强化学习模型的研究，既具有一定的理论价值，又有广阔的应用前景。

项目摘要

本项目针对在大规模状态空间中“维数灾”以及在学习过程中平衡探索与利用的问题，提出基于一型和二型模糊逻辑的贝叶斯强化学习方法。主要思想是将强化学习方法与一型、二型模糊逻辑和神经网络相结合，构建可用于大规模强化学习问题的神经模糊强化学习模型：⑴使用双层模糊推理系统或基于神经元的模糊推理系统对状态空间进行特征表示，可以有效的减少状态维数，加快强化学习算法的收敛速度；⑵构建基于二型模糊推理的二型模糊强化学习模型，进一步提高算法处理不确定性的能力以及对噪声干扰的鲁棒性；⑶采用交叉熵优化方法优化模糊强化学习模型的隶属度函数参数，以提高Q值函数的精确性。⑷将所构建的几个模糊强化学习系统用于大规模Deep Web网络信息搜索中，解决由于状态空间的高维性及语义信息的不确定性引起的Deep Web搜索中收敛速度慢甚至无法收敛的问题。基于贝叶斯推理的模糊逻辑强化学习模型的研究，既有一定的理论价值，又有广阔的应用前景。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：

发表时间：

DOI：

发表时间：2022

DOI：10.3799/dqkx.2020.083

发表时间：2020

DOI：

发表时间：2015

刘全的其他基金

批准号：31372430

批准年份：2013

资助金额：85.00

项目类别：面上项目

批准号：31672542

批准年份：2016

资助金额：61.00

项目类别：面上项目

批准号：61772355

批准年份：2017

资助金额：65.00

项目类别：面上项目

批准号：51379164

批准年份：2013

资助金额：80.00

项目类别：面上项目

批准号：10902078

批准年份：2009

资助金额：21.00

项目类别：青年科学基金项目

批准号：30972178

批准年份：2009

资助金额：30.00

项目类别：面上项目

批准号：60907017

批准年份：2009

资助金额：22.00

项目类别：青年科学基金项目

批准号：60873116

批准年份：2008

资助金额：35.00

项目类别：面上项目

批准号：41505129

批准年份：2015

资助金额：21.00

项目类别：青年科学基金项目

批准号：61070223

批准年份：2010

资助金额：35.00

项目类别：面上项目

批准号：81600783

批准年份：2016

资助金额：18.00

项目类别：青年科学基金项目

批准号：61472262

批准年份：2014

资助金额：82.00

项目类别：面上项目

批准号：81670343

批准年份：2016

资助金额：62.00

项目类别：面上项目

相似国自然基金

基于部分感知模型的贝叶斯强化学习理论及方法

批准号：61772355

批准年份：2017

负责人：刘全

学科分类：F06

资助金额：65.00

项目类别：面上项目

复杂装备故障推理贝叶斯网络模型研究

批准号：71101116

批准年份：2011

负责人：蔡志强

学科分类：G0108

资助金额：20.00

项目类别：青年科学基金项目

基于贝叶斯推理的视觉注意计算模型及应用研究

批准号：61175116

批准年份：2011

负责人：续晋华

学科分类：F0609

资助金额：58.00

项目类别：面上项目

混合贝叶斯网的概率推理

批准号：11126106

批准年份：2011

负责人：王晓飞

学科分类：A0402

资助金额：3.00

项目类别：数学天元基金项目

基于贝叶斯推理的模糊逻辑强化学习模型研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

玉米叶向值的全基因组关联分析

转录组与代谢联合解析红花槭叶片中青素苷变化机制

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化

城市轨道交通车站火灾情况下客流疏散能力评价

刘全的其他基金

弓形虫新毒力因子MAPK的表达特性及功能分析

弓形虫丝裂原活化蛋白激酶调控虫体毒力的分子基础

基于部分感知模型的贝叶斯强化学习理论及方法

水利工程再开发的多目标导流风险演化机理及调控理论

土石过水围堰溃堰机理及其模拟方法研究

piggyBac转座子介导的弓形虫速殖子-缓殖子转换分子机制研究

近红外波段堆垛结构三维光子晶体的制备和研究

基于tableau的非经典逻辑经典化的自动定理证明研究

机载质谱仪研究北京上空气溶胶化学组成的垂直分布特征

面向tableau模型的逻辑强化学习理论及方法研究

LL37-DNA复合物调控CRSwNP组织中BAFF的表达及机制研究

基于模糊逻辑的大规模强化学习理论及方法

联合应用萝卜硫素和锌通过Nrf2和MT的协同机制预防糖尿病心肌病

相似国自然基金