基于抽样的统计粗糙集模型及应用

基本信息
批准号:61772536
项目类别:面上项目
资助金额:59.00
负责人:赵素云
学科分类:
依托单位:中国人民大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:殷弘,张晓莹,吴云乘,曾菊儒,刘阳明,刘滢,葛浩,李东岳
关键词:
属性约简大数据下的粗糙集概念近似抽样规则发现
结项摘要

Uncertain data mining is one of the most important challenges for massive data analysis. It is extremely difficult to effectively express and efficiently compute those different forms of uncertainty, such as randomness, fuzziness and incompleteness. Traditional uncertain data mining methods only consider the expression of one or two different forms of uncertain data, but their computational complexity is usually ignored. As a result, there exist a series of problems when applying them to the massive data... To balance the expression ability and computational complexity, This proposal attempts to propose a new framework named sampling based statistical rough model. By using sampling techniques, this framework aims to investigate random feature selection and rule based classifiers on the massive uncertain data... This proposal generalizes the rough set theory to a more general model. It is first time to propose such a massive uncertain data mining model with the help of sampling techniques. And it has theoretic significance to verify that sampling techniques are feasible and effective on massive uncertain data mining.

不确定数据挖掘是大规模数据分析面临的重大挑战之一。不同表现形式的不确定性,如随机性,模糊性和不完备性等在大规模数据环境下表达与计算的复杂度骤升。传统的不确定数据挖掘方法仅考虑了数据某一或两种不同表现形式的不确定性,忽略了模型的计算复杂性,应用于大规模数据数据挖掘时存在一系列问题。. 本研究尝试突破当前不确定数据挖掘研究中模型表达能力与计算复杂度极不平衡的局面,理论分析随机性、模糊性和不完备性等不确定性计算所依赖的核心数据,建立以海量不确定数据为研究对象,以模糊集与粗糙集为理论基础,以抽样为技术手段,以随机特征选取和规则分类为目标的不确定数据挖掘模型。由此得到基于广义随机粗糙集的大规模数据挖掘的理论模型和算法框架。. 本研究将拓宽粗糙集的实用性,促进大规模数据环境中复杂不确定问题的求解,为面向大数据的数据挖掘方法提供参考,也为针对大规模数据分析的抽样有效性提供佐证。

项目摘要

不确定数据挖掘是大规模数据分析面临的重大挑战之一。在大规模数据环境下,针对不确定数据的表达与计算的复杂度骤升。传统的不确定数据挖掘方法仅考虑了静态数据一次性的计算或是更新,忽略了大数据模型的计算复杂性、冗余性,使得其应用于大规模数据挖掘时存在一系列计算时间和空间所带来的问题。.本研究突破当前不确定数据挖掘研究中模型表达能力与计算复杂度极不平衡的局面,理论分析模糊性和不完备性等不确定性计算所依赖的核心数据,建立以海量不确定数据为研究对象,以模糊集与粗糙集为理论基础,以增量学习和弱监督学习为技术手段,以特征选取和规则分类为目标的不确定数据挖掘模型。由此得到基于模糊粗糙集的大规模数据挖掘的理论模型和算法框架。研究成果分别为:1)建立了增量模糊粗糙集模型;2)建立了加速模糊粗糙集机制;3)面向不确定问题的主动挖掘技术。. 本研究拓宽粗糙集的实用性,促进大规模数据环境中复杂不确定问题的求解,为面向大数据的数据挖掘方法提供参考,也为针对大规模数据分析的抽样有效性提供佐证。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

基于余量谐波平衡的两质点动力学系统振动频率与响应分析

基于余量谐波平衡的两质点动力学系统振动频率与响应分析

DOI:10.6052/1672⁃6553⁃2017⁃059
发表时间:2018
3

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

DOI:10.3969/j.issn.1674-0858.2020.04.30
发表时间:2020
4

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021
5

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021

赵素云的其他基金

批准号:61202114
批准年份:2012
资助金额:24.00
项目类别:青年科学基金项目

相似国自然基金

1

社会经济统计预测及抽样调查方法与应用

批准号:78670013
批准年份:1986
负责人:项可风
学科分类:G0107
资助金额:1.50
项目类别:面上项目
2

加速失效时间模型中GCC抽样的统计推断及最优设计研究

批准号:11301545
批准年份:2013
负责人:杨青龙
学科分类:A0402
资助金额:22.00
项目类别:青年科学基金项目
3

统计模拟抽样算法及相关问题研究

批准号:11571133
批准年份:2015
负责人:宁建辉
学科分类:A0401
资助金额:50.00
项目类别:面上项目
4

基于排序集抽样及其推广取样方法上的次序统计量以及统计推断

批准号:10901009
批准年份:2009
负责人:李涛
学科分类:A0401
资助金额:16.00
项目类别:青年科学基金项目