Uncertain data mining is one of the most important challenges for massive data analysis. It is extremely difficult to effectively express and efficiently compute those different forms of uncertainty, such as randomness, fuzziness and incompleteness. Traditional uncertain data mining methods only consider the expression of one or two different forms of uncertain data, but their computational complexity is usually ignored. As a result, there exist a series of problems when applying them to the massive data... To balance the expression ability and computational complexity, This proposal attempts to propose a new framework named sampling based statistical rough model. By using sampling techniques, this framework aims to investigate random feature selection and rule based classifiers on the massive uncertain data... This proposal generalizes the rough set theory to a more general model. It is first time to propose such a massive uncertain data mining model with the help of sampling techniques. And it has theoretic significance to verify that sampling techniques are feasible and effective on massive uncertain data mining.
不确定数据挖掘是大规模数据分析面临的重大挑战之一。不同表现形式的不确定性,如随机性,模糊性和不完备性等在大规模数据环境下表达与计算的复杂度骤升。传统的不确定数据挖掘方法仅考虑了数据某一或两种不同表现形式的不确定性,忽略了模型的计算复杂性,应用于大规模数据数据挖掘时存在一系列问题。. 本研究尝试突破当前不确定数据挖掘研究中模型表达能力与计算复杂度极不平衡的局面,理论分析随机性、模糊性和不完备性等不确定性计算所依赖的核心数据,建立以海量不确定数据为研究对象,以模糊集与粗糙集为理论基础,以抽样为技术手段,以随机特征选取和规则分类为目标的不确定数据挖掘模型。由此得到基于广义随机粗糙集的大规模数据挖掘的理论模型和算法框架。. 本研究将拓宽粗糙集的实用性,促进大规模数据环境中复杂不确定问题的求解,为面向大数据的数据挖掘方法提供参考,也为针对大规模数据分析的抽样有效性提供佐证。
不确定数据挖掘是大规模数据分析面临的重大挑战之一。在大规模数据环境下,针对不确定数据的表达与计算的复杂度骤升。传统的不确定数据挖掘方法仅考虑了静态数据一次性的计算或是更新,忽略了大数据模型的计算复杂性、冗余性,使得其应用于大规模数据挖掘时存在一系列计算时间和空间所带来的问题。.本研究突破当前不确定数据挖掘研究中模型表达能力与计算复杂度极不平衡的局面,理论分析模糊性和不完备性等不确定性计算所依赖的核心数据,建立以海量不确定数据为研究对象,以模糊集与粗糙集为理论基础,以增量学习和弱监督学习为技术手段,以特征选取和规则分类为目标的不确定数据挖掘模型。由此得到基于模糊粗糙集的大规模数据挖掘的理论模型和算法框架。研究成果分别为:1)建立了增量模糊粗糙集模型;2)建立了加速模糊粗糙集机制;3)面向不确定问题的主动挖掘技术。. 本研究拓宽粗糙集的实用性,促进大规模数据环境中复杂不确定问题的求解,为面向大数据的数据挖掘方法提供参考,也为针对大规模数据分析的抽样有效性提供佐证。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于综合治理和水文模型的广西县域石漠化小流域区划研究
"多对多"模式下GEO卫星在轨加注任务规划
智能煤矿建设路线与工程实践
强震过程滑带超间隙水压力效应研究:大光包滑坡启动机制
基于直观图的三支概念获取及属性特征分析
社会经济统计预测及抽样调查方法与应用
加速失效时间模型中GCC抽样的统计推断及最优设计研究
统计模拟抽样算法及相关问题研究
基于排序集抽样及其推广取样方法上的次序统计量以及统计推断