Uncertain data mining is one of the most important challenges for massive data analysis. It is extremely difficult to effectively express and efficiently compute those different forms of uncertainty, such as randomness, fuzziness and incompleteness. Traditional uncertain data mining methods only consider the expression of one or two different forms of uncertain data, but their computational complexity is usually ignored. As a result, there exist a series of problems when applying them to the massive data... To balance the expression ability and computational complexity, This proposal attempts to propose a new framework named sampling based statistical rough model. By using sampling techniques, this framework aims to investigate random feature selection and rule based classifiers on the massive uncertain data... This proposal generalizes the rough set theory to a more general model. It is first time to propose such a massive uncertain data mining model with the help of sampling techniques. And it has theoretic significance to verify that sampling techniques are feasible and effective on massive uncertain data mining.
不确定数据挖掘是大规模数据分析面临的重大挑战之一。不同表现形式的不确定性,如随机性,模糊性和不完备性等在大规模数据环境下表达与计算的复杂度骤升。传统的不确定数据挖掘方法仅考虑了数据某一或两种不同表现形式的不确定性,忽略了模型的计算复杂性,应用于大规模数据数据挖掘时存在一系列问题。. 本研究尝试突破当前不确定数据挖掘研究中模型表达能力与计算复杂度极不平衡的局面,理论分析随机性、模糊性和不完备性等不确定性计算所依赖的核心数据,建立以海量不确定数据为研究对象,以模糊集与粗糙集为理论基础,以抽样为技术手段,以随机特征选取和规则分类为目标的不确定数据挖掘模型。由此得到基于广义随机粗糙集的大规模数据挖掘的理论模型和算法框架。. 本研究将拓宽粗糙集的实用性,促进大规模数据环境中复杂不确定问题的求解,为面向大数据的数据挖掘方法提供参考,也为针对大规模数据分析的抽样有效性提供佐证。
不确定数据挖掘是大规模数据分析面临的重大挑战之一。在大规模数据环境下,针对不确定数据的表达与计算的复杂度骤升。传统的不确定数据挖掘方法仅考虑了静态数据一次性的计算或是更新,忽略了大数据模型的计算复杂性、冗余性,使得其应用于大规模数据挖掘时存在一系列计算时间和空间所带来的问题。.本研究突破当前不确定数据挖掘研究中模型表达能力与计算复杂度极不平衡的局面,理论分析模糊性和不完备性等不确定性计算所依赖的核心数据,建立以海量不确定数据为研究对象,以模糊集与粗糙集为理论基础,以增量学习和弱监督学习为技术手段,以特征选取和规则分类为目标的不确定数据挖掘模型。由此得到基于模糊粗糙集的大规模数据挖掘的理论模型和算法框架。研究成果分别为:1)建立了增量模糊粗糙集模型;2)建立了加速模糊粗糙集机制;3)面向不确定问题的主动挖掘技术。. 本研究拓宽粗糙集的实用性,促进大规模数据环境中复杂不确定问题的求解,为面向大数据的数据挖掘方法提供参考,也为针对大规模数据分析的抽样有效性提供佐证。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于余量谐波平衡的两质点动力学系统振动频率与响应分析
圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
社会经济统计预测及抽样调查方法与应用
加速失效时间模型中GCC抽样的统计推断及最优设计研究
统计模拟抽样算法及相关问题研究
基于排序集抽样及其推广取样方法上的次序统计量以及统计推断