大数据环境下高维数据流挖掘算法及应用研究

基本信息

批准号：61370200

项目类别：面上项目

资助金额：75.00

负责人：冯林

学科分类：

依托单位：大连理工大学

批准年份：2013

结题年份：2017

起止时间：2014-01-01 - 2017-12-31

项目状态：已结题

项目参与者：吴振宇,邱铁,刘一玮,刘胜蓝,姚远,王乐,张晶,刘天伟,王辉兵

关键词：

关联规则分布式处理高维数据流大数据实时分类

结项摘要

High-dimensional data stream in big data has been widely used in a variety of modern mining applications in lots of fields such as wireless sensor networks, mobile communication, social networks and bioinformatics etc. It is one of the most important research domains in data mining. While the high-dimension data stream has the curse of dimension and erratic distribution in big data, traditional approaches remain hard to perform the data mining in such a complex dataset. This project researches the problems of dimension reduction in high-dimension data stream, concept drift detection, classification and association rule mining in big data and mainly focus on the classification and association rule mining. In the context of big data, we utilize the matrix factorization technology to realize task decomposition, and then apply the linear supervision dimension reduction method to high-dimension data stream to get the optimal low-dimension subspace and data for classification with the thought of balancing scatters. We will build a stable incremental Extreme Learning Machine classifier which utilizes the subspace projection to detect the concept drift in a new arrival data chunk by adjusting the classifier in real time. According to the class information and original high-dimension data, we will perform the effective association rule mining for a specific target. In this project, we aim to provide a viable method to deal with the association rule mining and classification of high-dimension data stream in big data for extending the application fields.

大数据环境下的高维数据流在无线传感网络、移动通信、社交网络以及生物信息等领域有广泛的应用前景，是当前数据挖掘领域的重要研究方向。由于大数据环境下高维数据流存在"维数灾难"及数据分布不稳定等问题，传统方法尚难以对如此复杂的数据进行深入的处理和挖掘。本项目研究大数据环境下高维数据流的降维、概念漂移检测、分类及关联规则挖掘问题，重点研究其分类及关联规则挖掘。在大数据环境下，首先通过矩阵分解技术实现任务分解，利用平衡离散度思想对高维数据流进行线性监督降维，得到适合分类的最优低维子空间及低维数据；建立稳定的增量极端学习机分类器。同时，利用子空间投影技术对新数据块进行概念漂移检测，以便及时调整分类器实现实时分类。根据类别信息及原始高维数据块进行有针对性的高效益关联规则挖掘。本项目旨在为大数据环境下高维数据流的分类及关联规则问题提供可行的方法，期望有助于大数据环境下高维数据流在更广范围内应用。

项目摘要

大数据环境下的高维数据流在无线传感网络、移动通信、社交网络以及生物信息等领域有广泛的应用前景，是当前数据挖掘领域的重要研究方向。由于大数据环境下高维数据流存在“维数灾难”及数据分布不稳定等问题，传统方法尚难以对如此复杂的数据进行深入的处理和挖掘。针对这些问题，本项目研究了大数据环境下高维数据流的降维、概念漂移检测、分类及关联规则挖掘问题，重点研究了其分类及关联规则挖掘。项目完成了通过矩阵分解技术实现高维数据流挖掘任务分解，进一步利用平衡离散度思想对高维数据流进行线性监督降维，使得高维数据被投影到合适的子空间，得到适合分类的最优低维子空间及低维数的任务。为解决高维数据流的实时性数据挖掘问题，本项目改进并设立了稳定的增量极端学习机分类器，使得数据挖掘模型的迭代和测试速度都显著增加。同时，针对高维数据流的概念漂移问题，本项目提出了利用子空间投影技术对新数据块进行概念漂移的检测的算法，以便及时调整分类器实现实时分类，使得模型对新类型数据依然鲁棒。最后，本项目还设计并实现了基于样本类别信息及原始高维数据块进行有针对性的高效关联规则挖掘的算法。本项目共发表学术论文31篇，其中17篇被SCI索引，13篇被EI索引。项目在高维数据流挖掘的各个方面均提供了切实可行的方法，促进了当下大数据环境下高维数据流的挖掘工作。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：10.19328/j.cnki.2096-8655.2022.02.002

发表时间：2022

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：10.7605/gdlxb.2022.03.033

发表时间：2022

冯林的其他基金

批准号：60773213

批准年份：2007

资助金额：25.00

项目类别：面上项目

批准号：39060023

批准年份：1990

资助金额：3.00

项目类别：地区科学基金项目

批准号：39060060

批准年份：1990

资助金额：3.00

项目类别：地区科学基金项目

批准号：61672130

批准年份：2016

资助金额：63.00

项目类别：面上项目

批准号：61173163

批准年份：2011

资助金额：57.00

项目类别：面上项目

批准号：81201592

批准年份：2012

资助金额：23.00

项目类别：青年科学基金项目

批准号：71303139

批准年份：2013

资助金额：20.00

项目类别：青年科学基金项目

批准号：11404190

批准年份：2014

资助金额：25.00

项目类别：青年科学基金项目

相似国自然基金

大数据环境下基于同步原理的数据流挖掘算法研究

批准号：61403062

批准年份：2014

负责人：邵俊明

学科分类：F0603

资助金额：25.00

项目类别：青年科学基金项目

高维时间序列的数据挖掘算法及应用研究

批准号：60773213

批准年份：2007

负责人：冯林

学科分类：F0201

资助金额：25.00

项目类别：面上项目

面向数据流的异常挖掘算法研究

批准号：60673191

批准年份：2006

负责人：蒋盛益

学科分类：F06

资助金额：24.00

项目类别：面上项目

基于分形与数据流挖掘技术的动态数据挖掘方法及其应用研究

批准号：61202227

批准年份：2012

负责人：刘慧婷

学科分类：F0210

资助金额：24.00

项目类别：青年科学基金项目

大数据环境下高维数据流挖掘算法及应用研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

一种基于多层设计空间缩减策略的近似高维优化方法

"多对多"模式下GEO卫星在轨加注任务规划

智能煤矿建设路线与工程实践

二维FM系统的同时故障检测与控制

二叠纪末生物大灭绝后Skolithos遗迹化石的古环境意义:以豫西和尚沟组为例

冯林的其他基金

高维时间序列的数据挖掘算法及应用研究

大兴安岭落叶松林水文功能模型研究

大兴安岭落叶松林生产力模型的研究

基于多视角的网络暴力敏感图像识别技术研究

基于流形学习和时序语义网挖掘的人体运动序列分析研究

SMC4及其肺发育相互作用分子在肺癌发生发展中的作用研究

政府竞争视角下县域金融集聚演进及政策优化研究

生物声呐系统信号调制机制之探索及实验研究

相似国自然基金