不确定性数据流上的频繁项集挖掘关键技术研究

基本信息
批准号:61100112
项目类别:青年科学基金项目
资助金额:21.00
负责人:李海峰
学科分类:
依托单位:中央财经大学
批准年份:2011
结题年份:2014
起止时间:2012-01-01 - 2014-12-31
项目状态: 已结题
项目参与者:王悦,张悦今,海沫,王毅恒,曹磊
关键词:
频繁项集不确定数据数据流
结项摘要

静态不确定性数据的挖掘算法开销庞大,难以应用到快速、无限且动态变化的数据流环境中。本项目将围绕计算效率、存储开销、结果实用性和实际应用四个大问题展开系统研究,旨在提出数据流环境中计算资源和存储资源受限时不确定性数据的高质量实时挖掘方法:首先建立不确定性数据频繁项集的合理概念,研究该定义的增量式计算模型和存储方法,采用混合遍历方式和基于数学模型的剪枝策略实现高效实时的挖掘算法;然后提出基于存在概率的项集精简表示方法和挖掘算法,以减少存储开销;进一步,探讨利用参数自适应的Top-k方法实现不确定性数据挖掘的结果质量优化策略,采用SKYLINE方法建立频繁项集挖掘的多目标优化机制;最后,重新定义不确定性数据的关联规则,实现动态的关联规则挖掘算法。本项目的研究可望加强对不确定性数据挖掘问题的认知,为数据挖掘基本技术的研究方向提供新思路,同时算法效率和实用性的提高可以推进信息技术在社会发展中的应用。

项目摘要

本项目对不确定性数据上的频繁项集挖掘算法展开了全面而系统的研究工作,目前已经在不确定性数据的预处理、时间敏感数据流上的频繁项集挖掘、闭合频繁项集挖掘、最大频繁项集挖掘等4个主要方面取得了进展,并在自适应频繁项集挖掘方面和关联规则挖掘方面有了初步的研究结论。.1)提出了基于主成分分析的不确定数据的预处理方法,该方法能够在频繁项集挖掘的过程中有效缩减数据的维度和规模,能够提高数据挖掘的效率。.2)提出了不确定性数据的静态和动态最大频繁项集的挖掘算法,利用Chernoff Bound来构建概率支持度计算的范围,利用数据分布的特性来近似计算概率支持度,将计算代价降低了一个数量级。.3)提出了不确定性数据流上的频繁项集挖掘的算法,分别以滑动窗口模型和界桩模型分别实时和批处理实现频繁项集挖掘,能够精确的或者近似的获取数据挖掘的结果。同时,讨论了关联规则的挖掘方法。.4)提出了数据流上基于界碑模型的最大频繁项集挖掘算法,采用一种称为MFIODSLT的数据结构增量的维护最大频繁项集与部分附属信息,能够实现快速的项集查找和裁剪。提出了另外一种最大频繁项集挖掘的算法,利用一种FP-FOREST的数据结构,结合已有算法对数据进行压缩和动态维护,能够提供挖掘的效率。提出了一种结果为False Negative的最大频繁项集挖掘算法,利用Chernoff Bound来减少由于数据流挖掘产生的冗余挖掘结果,大大降低了内存使用的代价。.5)提出了针对时间敏感数据流的频繁项集挖掘的算法,引入了类型变化界限的概念,将项集进行动态分类,根据滑动窗口大小的变化对项集进行延迟处理,仅当项集的类型变化界限超出一定阈值的时候才进行支持度的重新计算,使得剪枝后算法的效率大大增强。.6)提出了改进的时间敏感数据流的频繁项集挖掘的算法,利用启发式规则扩展类型变化界限,使得大量的冗余计算得以忽略,从而提高算法的效率。.基于以上研究,目前共有13篇学术论文被发表和录用,9篇论文被SCI或EI收录。其中,1篇发表在SCI国际期刊《Knowledge-based Systems》,2篇发表在EI国际期刊《Journal of Software》和《Journal of Information & Computational Science》,2篇发表在一级期刊《计算机学报》上,4篇发表在《计算机科学》等国内核心期刊。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

Himawari-8/AHI红外光谱资料降水信号识别与反演初步应用研究

Himawari-8/AHI红外光谱资料降水信号识别与反演初步应用研究

DOI:
发表时间:2020
3

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021
4

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021
5

混采地震数据高效高精度分离处理方法研究进展

混采地震数据高效高精度分离处理方法研究进展

DOI:10.3969/j.issn.1000-1441.2020.05.004
发表时间:2020

李海峰的其他基金

批准号:81403081
批准年份:2014
资助金额:23.00
项目类别:青年科学基金项目
批准号:61171186
批准年份:2011
资助金额:60.00
项目类别:面上项目
批准号:81070963
批准年份:2010
资助金额:30.00
项目类别:面上项目
批准号:71301016
批准年份:2013
资助金额:20.00
项目类别:青年科学基金项目
批准号:81771362
批准年份:2017
资助金额:54.00
项目类别:面上项目
批准号:81360616
批准年份:2013
资助金额:49.00
项目类别:地区科学基金项目
批准号:41571397
批准年份:2015
资助金额:60.00
项目类别:面上项目
批准号:41001220
批准年份:2010
资助金额:18.00
项目类别:青年科学基金项目
批准号:31571657
批准年份:2015
资助金额:64.00
项目类别:面上项目
批准号:60772076
批准年份:2007
资助金额:28.00
项目类别:面上项目
批准号:31400103
批准年份:2014
资助金额:23.00
项目类别:青年科学基金项目
批准号:61671187
批准年份:2016
资助金额:60.00
项目类别:面上项目
批准号:61177015
批准年份:2011
资助金额:70.00
项目类别:面上项目
批准号:61575175
批准年份:2015
资助金额:64.00
项目类别:面上项目
批准号:41871364
批准年份:2018
资助金额:58.00
项目类别:面上项目

相似国自然基金

1

面向高速网络监控的并行频繁项挖掘及GPU优化关键技术研究

批准号:61103214
批准年份:2011
负责人:张玉
学科分类:F0205
资助金额:24.00
项目类别:青年科学基金项目
2

复杂生物网络集的频繁模式挖掘算法研究

批准号:61174162
批准年份:2011
负责人:马润年
学科分类:F0302
资助金额:59.00
项目类别:面上项目
3

不确定数据流上对象簇管理关键技术研究

批准号:61003031
批准年份:2010
负责人:霍欢
学科分类:F0202
资助金额:18.00
项目类别:青年科学基金项目
4

基于频繁活动点集的手机通话位置数据隐私保护方法

批准号:41301440
批准年份:2013
负责人:尹凌
学科分类:D0114
资助金额:25.00
项目类别:青年科学基金项目