基于模糊粗糙集的概率数据挖掘方法研究

基本信息

批准号：61202114

项目类别：青年科学基金项目

资助金额：24.00

负责人：赵素云

学科分类：

依托单位：中国人民大学

批准年份：2012

结题年份：2015

起止时间：2013-01-01 - 2015-12-31

项目状态：已结题

项目参与者：裴斌,李英龙,王敏峰,陈伟,赵婷婷,郑涛,刘虹

关键词：

分类模糊粗糙集不确定数据特征选取

结项摘要

In the real applications, probabilistic databases contain not only randomness,but also fuzziness and roughness. The traditional approaches of data mining,in which all data are assumed certainly, can not effectively handle probabilistic databases. The recently proposed mining approaches on probabilistic data treat the uncertainty as randomness, whereas fuzziness hidden in feature values and the indiscernibility arisen from incomplete information are missed. Now, it is promising to propose a theoretical framework and mining approach to handle several kinds of uncertainties in probabilistic databases..Replacing the 'Possible Worlds' model, which is often used in probabilistic data managing, this proposal attempts to propose a new framework named generalized statistical rough model.In this framework the fuzzy rough techniques is developed to represent and measure weak information hidden in probabilistic databases. And then the approaches of feature selection and classifier building from probabilistic databases are proposed. .This proposal generalizes the rough set theory to a more general model. And it is first time to propose such an uncertain data mining model which integrate randomness, fuzziness and roughness together.

随机性是概率数据的本质特征，但并非唯一的不确定性特征。概率数据不仅具有不同表现形式的随机性，还具有特征值的语义模糊性和信息不完备引起的粗糙不可分辨性等。经典的数据挖掘方法没有考虑数据的不确定性。现有的概率数据挖掘方法仅考虑了数据某一表现形式的随机性，忽略了其他类型和表现形式的不确定性，应用于概率数据挖掘时存在一系列的问题。. 本研究尝试突破当前不确定数据管理领域以'可能世界模型'为基础的概率数据表示模型，系统分析随机性、语义模糊性和粗糙不可分辨性等不确定性，建立以概率数据库为研究对象，以模糊粗糙集为研究工具，以特征选取和规则分类为目标的数据挖掘模型。由此得到基于广义随机粗糙集的数据挖掘的理论模型和算法框架。. 本研究吸收了模糊粗糙集模型的粗糙近似算子的构造成果，具有良好的研究基础。本研究将拓宽粗糙集的实用性，也为其它挖掘算法拓展到概率数据库提供理论参考。

项目摘要

弱可用信息之‘弱’的一大表现即是噪音数据的存在，三年来重点关注了带噪音数据的知识发现方法。现有的带噪音数据的知识发现方法多是通过设定阈值来控制噪音。因而阈值的选择对知识发现的结果有影响显著。如何设定一个最佳阈值是大多数鲁棒知识发现方法不得不面对的难题。我们的研究从一个全新的角度来处理这一难题：我们拚弃了寻找一个最佳阈值的方法，着力发现全部可能阈值上的知识，把鲁棒知识发现的结果全局呈现出来。这是我们近期研究在思路上的主要创新。基于这一思路，我们以粗糙集理论与模糊集理论为基点，以拓扑结构分析为方法，研究了基于嵌套结构的含噪音数据的降维与分类方法。研究成果是可以分为以下三个方面：.首先，我们从全局的角度研究了基于参数粗糙集的属性约简的拓扑结构。当前关于鲁棒特征选取的研究主要集中于如何设定一个全局次优或是局部最优的属性约简算法。很少有文章从拓扑结构的角度出发研究参数对属性约简结果的影响。本文首次讨论了属性约简与参数之间的关系，发现了不同参数上的属性约简存在‘嵌套’的拓扑结构。并利用严谨的数学定理指出嵌套结构存在的必要条件。该论文成果被信息科学领域国际权威期刊Information Sciences录用为长文。.然后，我们用嵌套约简的方法提出一种鲁棒的降维方法。该方法可以找到所有可能阈值上的降维结果。该方法完全不同于现有的鲁棒降维算法，其具体表现在三个方面：概念，工具以及算法。首先，降维的结果采用模糊集呈现，而现有的降维算法结果均为清晰集合。其次，每个特征的抗噪程度被设计为每个特征的度量工具。最后，一个可以找到所有可能阈值上的降维结果的算法被提出。该成果被国际顶级期刊IEEE Transactions on Fuzzy Systems录用为长文。.最后，我们用嵌套约简的方法提出了一种嵌套分类器。该方法可以找到所有可能阈值上的分类结果。该方法提出了一系列鲁棒的约简与覆盖概念，这些概念在不同阈值上是相互嵌套的。因为，他们为嵌套分类器的构造提供了理论依据。然后，我们基于嵌套结构，设计了一些鲁棒约简与规则覆盖算法。这些算法为嵌套分类器的构造提供了可行性技术。该成果被国际期刊IEEE Transactions on Fuzzy Systems录用为长文。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2017

DOI：

发表时间：2015

DOI：10.3864/j.issn.0578-1752.2019.03.004

发表时间：2019

DOI：10.3964/j.issn.1000-0593(2022)09-2956-07

发表时间：2022

DOI：10.12202/j.0476-0301.2020285

发表时间：2021

赵素云的其他基金

批准号：61772536

批准年份：2017

资助金额：59.00

项目类别：面上项目

相似国自然基金

粗糙集与模糊集的融合研究及其在数据挖掘中的应用

批准号：60175016

批准年份：2001

负责人：苗夺谦

学科分类：F0607

资助金额：5.50

项目类别：面上项目

基于模糊粗糙集的复杂数据规则提取方法及应用研究

批准号：61602372

批准年份：2016

负责人：张晓

学科分类：F0607

资助金额：19.00

项目类别：青年科学基金项目

基于概率粗糙集模型的属性约简方法研究

批准号：61502419

批准年份：2015

负责人：马希骜

学科分类：F0607

资助金额：16.00

项目类别：青年科学基金项目

混合数据中模糊语言知识挖掘方法研究

批准号：61372187

批准年份：2013

负责人：裴峥

学科分类：F0113

资助金额：80.00

项目类别：面上项目

基于模糊粗糙集的概率数据挖掘方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

论大数据环境对情报学发展的影响

城市轨道交通车站火灾情况下客流疏散能力评价

水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应

空气电晕放电发展过程的特征发射光谱分析与放电识别

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

赵素云的其他基金

基于抽样的统计粗糙集模型及应用

相似国自然基金