In the real applications, probabilistic databases contain not only randomness,but also fuzziness and roughness. The traditional approaches of data mining,in which all data are assumed certainly, can not effectively handle probabilistic databases. The recently proposed mining approaches on probabilistic data treat the uncertainty as randomness, whereas fuzziness hidden in feature values and the indiscernibility arisen from incomplete information are missed. Now, it is promising to propose a theoretical framework and mining approach to handle several kinds of uncertainties in probabilistic databases..Replacing the 'Possible Worlds' model, which is often used in probabilistic data managing, this proposal attempts to propose a new framework named generalized statistical rough model.In this framework the fuzzy rough techniques is developed to represent and measure weak information hidden in probabilistic databases. And then the approaches of feature selection and classifier building from probabilistic databases are proposed. .This proposal generalizes the rough set theory to a more general model. And it is first time to propose such an uncertain data mining model which integrate randomness, fuzziness and roughness together.
随机性是概率数据的本质特征,但并非唯一的不确定性特征。概率数据不仅具有不同表现形式的随机性,还具有特征值的语义模糊性和信息不完备引起的粗糙不可分辨性等。经典的数据挖掘方法没有考虑数据的不确定性。现有的概率数据挖掘方法仅考虑了数据某一表现形式的随机性,忽略了其他类型和表现形式的不确定性,应用于概率数据挖掘时存在一系列的问题。. 本研究尝试突破当前不确定数据管理领域以'可能世界模型'为基础的概率数据表示模型,系统分析随机性、语义模糊性和粗糙不可分辨性等不确定性,建立以概率数据库为研究对象,以模糊粗糙集为研究工具,以特征选取和规则分类为目标的数据挖掘模型。由此得到基于广义随机粗糙集的数据挖掘的理论模型和算法框架。. 本研究吸收了模糊粗糙集模型的粗糙近似算子的构造成果,具有良好的研究基础。本研究将拓宽粗糙集的实用性,也为其它挖掘算法拓展到概率数据库提供理论参考。
弱可用信息之‘弱’的一大表现即是噪音数据的存在,三年来重点关注了带噪音数据的知识发现方法。现有的带噪音数据的知识发现方法多是通过设定阈值来控制噪音。因而阈值的选择对知识发现的结果有影响显著。如何设定一个最佳阈值是大多数鲁棒知识发现方法不得不面对的难题。我们的研究从一个全新的角度来处理这一难题:我们拚弃了寻找一个最佳阈值的方法,着力发现全部可能阈值上的知识,把鲁棒知识发现的结果全局呈现出来。这是我们近期研究在思路上的主要创新。基于这一思路,我们以粗糙集理论与模糊集理论为基点,以拓扑结构分析为方法,研究了基于嵌套结构的含噪音数据的降维与分类方法。研究成果是可以分为以下三个方面:.首先,我们从全局的角度研究了基于参数粗糙集的属性约简的拓扑结构。当前关于鲁棒特征选取的研究主要集中于如何设定一个全局次优或是局部最优的属性约简算法。很少有文章从拓扑结构的角度出发研究参数对属性约简结果的影响。本文首次讨论了属性约简与参数之间的关系,发现了不同参数上的属性约简存在‘嵌套’的拓扑结构。并利用严谨的数学定理指出嵌套结构存在的必要条件。该论文成果被信息科学领域国际权威期刊Information Sciences录用为长文。.然后,我们用嵌套约简的方法提出一种鲁棒的降维方法。该方法可以找到所有可能阈值上的降维结果。该方法完全不同于现有的鲁棒降维算法,其具体表现在三个方面:概念,工具以及算法。首先,降维的结果采用模糊集呈现,而现有的降维算法结果均为清晰集合。其次,每个特征的抗噪程度被设计为每个特征的度量工具。最后,一个可以找到所有可能阈值上的降维结果的算法被提出。该成果被国际顶级期刊IEEE Transactions on Fuzzy Systems录用为长文。.最后,我们用嵌套约简的方法提出了一种嵌套分类器。该方法可以找到所有可能阈值上的分类结果。该方法提出了一系列鲁棒的约简与覆盖概念,这些概念在不同阈值上是相互嵌套的。因为,他们为嵌套分类器的构造提供了理论依据。然后,我们基于嵌套结构,设计了一些鲁棒约简与规则覆盖算法。这些算法为嵌套分类器的构造提供了可行性技术。该成果被国际期刊IEEE Transactions on Fuzzy Systems录用为长文。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
城市轨道交通车站火灾情况下客流疏散能力评价
水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应
空气电晕放电发展过程的特征发射光谱分析与放电识别
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
粗糙集与模糊集的融合研究及其在数据挖掘中的应用
基于模糊粗糙集的复杂数据规则提取方法及应用研究
基于概率粗糙集模型的属性约简方法研究
混合数据中模糊语言知识挖掘方法研究