基于分形与数据流挖掘技术的动态数据挖掘方法及其应用研究

基本信息
批准号:61202227
项目类别:青年科学基金项目
资助金额:24.00
负责人:刘慧婷
学科分类:
依托单位:安徽大学
批准年份:2012
结题年份:2015
起止时间:2013-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:贾瑞玉,贾兆红,张以文,姚晟,李付鹏,周开申,岳可诚
关键词:
分形数据流数据技术动态数据挖掘
结项摘要

The project mainly researches on the basic theories and methods of dynamic data analysis using fractal and data stream mining technology, and the data is business data in heterogeneous resources (including customer information, transaction data, log data flow)..The project makes use of the EMD method to filter out noise of business data, and this can realize business data pre-processing, provide clean data for the follow-up analysis of business data, increase credibility of results of the analysis..At the same time, the project uses fractal technology to get fractal characteristics of complex business data, and this can study fractal knowledge discovery process in a dynamic environment. Use data stream mining technology to dynamically mine of potential rules a single business flow and similar nature of multi-business flow, and these can be further utilized for customer personalized recommendation service, improvements of the policy of businesses sell and stock..The study is expected to solve the noise problem in the analysis of business data and know how to implement dynamic analysis, improve the degree of intelligence and efficiency of business intelligent system in complex environment, and thus better able to provide timely support for business decision-making.

该项目主要研究在异质异构商务数据资源(包括客户信息、在线交易数据、日志数据流)中,利用分形和数据流挖掘相关技术进行动态数据分析的基本理论与方法。.项目利用EMD方法滤除商务数据的噪声,实现商务数据的预处理,为后续的商务数据分析工作提供干净的数据,提高分析结果的可信度。.同时,项目使用分形技术分析复杂商务数据中数据的分形特征,以此研究在动态环境下分形知识的发现过程;利用数据流挖掘技术动态挖掘单商务流中的潜在规则和多商务流之间的相似性,以进一步用于顾客个性化推荐服务、商家推销和进货策略的改进。.该研究可望解决商务数据分析中噪声干扰和如何实现动态分析的问题,提高商务智能系统的智能程度和复杂环境下的时效性,从而能更好地为商务决策提供及时的支持。

项目摘要

目前,商务数据分析多数采用的是静态数据挖掘技术。然而海量商务数据具有数据流的特性,从本质上对静态数据挖掘技术提出了新的挑战。.近些年来,商务数据中出现了大量的不确定数据。如何针对商务数据的动态特性和不确定特点进行分析,提高商务数据分析的效率,缩短从发现问题到采取行动的反应延迟以满足决策的需要,是当前商务数据分析研究中重要而新颖的研究课题。.为此,本课题首先对不确定数据的频繁项集挖掘技术进行了研究,包括(1)不确定数据频繁闭项集挖掘。提出了一种新的频繁闭项集挖掘算法——NA-PFCIM。该算法将项集挖掘过程看作一个概率分布函数,采用了正态分布模型提取频繁项集。同时,为了减少搜索空间以及避免冗余计算,利用基于深度优先搜索的策略来获得所有的概率频繁闭项集。该算法还设计了两个剪枝策略: 超集修剪和子集修剪。实验表明,NA-PFCIM算法能够减少所要扩展的项集,同时减少项集频繁概率的计算。(2)不确定数据流频繁项集挖掘。提出了一种基于滑动窗口的false-positive挖掘算法UFIM。UFIM算法对数据流进行分块处理,在内存中维护一个存储滑动窗口内频繁项集的概要数据结构,随着窗口的滑动对该概要结构进行增量更新。实验表明,UFIM算法能获得较高的频繁项集挖掘的准确性。(3) 不确定数据流最大频繁项集挖掘。提出了一种基于衰减模型的不确定性数据流最大频繁项集挖掘算法TUFSMax。该算法采用标记树结点的方法,使得算法不需要超集检测就可挖掘出所有的最大频繁项集,节约了超集检测时间。.其次,本课题研究了商务数据中的个性化推荐技术。为了克服单一算法的缺陷,提出了基于用户思维方式的组合推荐算法UTMCR。不同的用户,选择物品时思维方式不同,选择物品的方法也不相同。UTMCR算法度量用户的思维方式,根据用户的思维方式来切换推荐系统中使用的推荐算法。对于“借鉴”思维方式将采用TRSP算法为用户进行推荐,对于“搜索匹配”思维方式将采用PTTC算法为用户完成推荐。UTMCR利用切换算法的方法完成了组合推荐,在数据集Last.fm上从验证了UTMCR算法带来的优势。.最后,把频繁项集挖掘技术、文本挖掘技术和推荐技术相互融合,开拓了基于主题的商务数据个性化推荐系统作为下一步的研究领域。.结合该项目的研究,培养硕士3名,发表中英文论文22篇,其中SCI收录1篇、EI收录5篇。完全达到了计划进度要求。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
3

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
4

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
5

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020

刘慧婷的其他基金

批准号:30901218
批准年份:2009
资助金额:20.00
项目类别:青年科学基金项目

相似国自然基金

1

基于多重分形和文本数据流技术的网络金融信息动态挖掘研究

批准号:71301041
批准年份:2013
负责人:倪丽萍
学科分类:G0112
资助金额:20.50
项目类别:青年科学基金项目
2

商务智能中的动态数据挖掘与分形技术的研究

批准号:70871033
批准年份:2008
负责人:倪志伟
学科分类:G0112
资助金额:24.00
项目类别:面上项目
3

基于集成学习的分布式XML数据流的挖掘模型与概念漂移挖掘方法研究

批准号:61773415
批准年份:2017
负责人:毛国君
学科分类:F0603
资助金额:64.00
项目类别:面上项目
4

基于海量数据流挖掘的网络入侵检测方法研究

批准号:61772252
批准年份:2017
负责人:张永
学科分类:F0207
资助金额:60.00
项目类别:面上项目