High-dimensional data stream in big data has been widely used in a variety of modern mining applications in lots of fields such as wireless sensor networks, mobile communication, social networks and bioinformatics etc. It is one of the most important research domains in data mining. While the high-dimension data stream has the curse of dimension and erratic distribution in big data, traditional approaches remain hard to perform the data mining in such a complex dataset. This project researches the problems of dimension reduction in high-dimension data stream, concept drift detection, classification and association rule mining in big data and mainly focus on the classification and association rule mining. In the context of big data, we utilize the matrix factorization technology to realize task decomposition, and then apply the linear supervision dimension reduction method to high-dimension data stream to get the optimal low-dimension subspace and data for classification with the thought of balancing scatters. We will build a stable incremental Extreme Learning Machine classifier which utilizes the subspace projection to detect the concept drift in a new arrival data chunk by adjusting the classifier in real time. According to the class information and original high-dimension data, we will perform the effective association rule mining for a specific target. In this project, we aim to provide a viable method to deal with the association rule mining and classification of high-dimension data stream in big data for extending the application fields.
大数据环境下的高维数据流在无线传感网络、移动通信、社交网络以及生物信息等领域有广泛的应用前景,是当前数据挖掘领域的重要研究方向。由于大数据环境下高维数据流存在"维数灾难"及数据分布不稳定等问题,传统方法尚难以对如此复杂的数据进行深入的处理和挖掘。本项目研究大数据环境下高维数据流的降维、概念漂移检测、分类及关联规则挖掘问题,重点研究其分类及关联规则挖掘。在大数据环境下,首先通过矩阵分解技术实现任务分解,利用平衡离散度思想对高维数据流进行线性监督降维,得到适合分类的最优低维子空间及低维数据;建立稳定的增量极端学习机分类器。同时,利用子空间投影技术对新数据块进行概念漂移检测,以便及时调整分类器实现实时分类。根据类别信息及原始高维数据块进行有针对性的高效益关联规则挖掘。本项目旨在为大数据环境下高维数据流的分类及关联规则问题提供可行的方法,期望有助于大数据环境下高维数据流在更广范围内应用。
大数据环境下的高维数据流在无线传感网络、移动通信、社交网络以及生物信息等领域有广泛的应用前景,是当前数据挖掘领域的重要研究方向。由于大数据环境下高维数据流存在“维数灾难”及数据分布不稳定等问题,传统方法尚难以对如此复杂的数据进行深入的处理和挖掘。针对这些问题,本项目研究了大数据环境下高维数据流的降维、概念漂移检测、分类及关联规则挖掘问题,重点研究了其分类及关联规则挖掘。项目完成了通过矩阵分解技术实现高维数据流挖掘任务分解,进一步利用平衡离散度思想对高维数据流进行线性监督降维,使得高维数据被投影到合适的子空间,得到适合分类的最优低维子空间及低维数的任务。为解决高维数据流的实时性数据挖掘问题,本项目改进并设立了稳定的增量极端学习机分类器,使得数据挖掘模型的迭代和测试速度都显著增加。同时,针对高维数据流的概念漂移问题,本项目提出了利用子空间投影技术对新数据块进行概念漂移的检测的算法,以便及时调整分类器实现实时分类,使得模型对新类型数据依然鲁棒。最后,本项目还设计并实现了基于样本类别信息及原始高维数据块进行有针对性的高效关联规则挖掘的算法。本项目共发表学术论文31篇,其中17篇被SCI索引,13篇被EI索引。项目在高维数据流挖掘的各个方面均提供了切实可行的方法,促进了当下大数据环境下高维数据流的挖掘工作。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
大数据环境下基于同步原理的数据流挖掘算法研究
高维时间序列的数据挖掘算法及应用研究
面向数据流的异常挖掘算法研究
基于分形与数据流挖掘技术的动态数据挖掘方法及其应用研究