大数据环境下高维数据流挖掘算法及应用研究

基本信息
批准号:61370200
项目类别:面上项目
资助金额:75.00
负责人:冯林
学科分类:
依托单位:大连理工大学
批准年份:2013
结题年份:2017
起止时间:2014-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:吴振宇,邱铁,刘一玮,刘胜蓝,姚远,王乐,张晶,刘天伟,王辉兵
关键词:
关联规则分布式处理高维数据流大数据实时分类
结项摘要

High-dimensional data stream in big data has been widely used in a variety of modern mining applications in lots of fields such as wireless sensor networks, mobile communication, social networks and bioinformatics etc. It is one of the most important research domains in data mining. While the high-dimension data stream has the curse of dimension and erratic distribution in big data, traditional approaches remain hard to perform the data mining in such a complex dataset. This project researches the problems of dimension reduction in high-dimension data stream, concept drift detection, classification and association rule mining in big data and mainly focus on the classification and association rule mining. In the context of big data, we utilize the matrix factorization technology to realize task decomposition, and then apply the linear supervision dimension reduction method to high-dimension data stream to get the optimal low-dimension subspace and data for classification with the thought of balancing scatters. We will build a stable incremental Extreme Learning Machine classifier which utilizes the subspace projection to detect the concept drift in a new arrival data chunk by adjusting the classifier in real time. According to the class information and original high-dimension data, we will perform the effective association rule mining for a specific target. In this project, we aim to provide a viable method to deal with the association rule mining and classification of high-dimension data stream in big data for extending the application fields.

大数据环境下的高维数据流在无线传感网络、移动通信、社交网络以及生物信息等领域有广泛的应用前景,是当前数据挖掘领域的重要研究方向。由于大数据环境下高维数据流存在"维数灾难"及数据分布不稳定等问题,传统方法尚难以对如此复杂的数据进行深入的处理和挖掘。本项目研究大数据环境下高维数据流的降维、概念漂移检测、分类及关联规则挖掘问题,重点研究其分类及关联规则挖掘。在大数据环境下,首先通过矩阵分解技术实现任务分解,利用平衡离散度思想对高维数据流进行线性监督降维,得到适合分类的最优低维子空间及低维数据;建立稳定的增量极端学习机分类器。同时,利用子空间投影技术对新数据块进行概念漂移检测,以便及时调整分类器实现实时分类。根据类别信息及原始高维数据块进行有针对性的高效益关联规则挖掘。本项目旨在为大数据环境下高维数据流的分类及关联规则问题提供可行的方法,期望有助于大数据环境下高维数据流在更广范围内应用。

项目摘要

大数据环境下的高维数据流在无线传感网络、移动通信、社交网络以及生物信息等领域有广泛的应用前景,是当前数据挖掘领域的重要研究方向。由于大数据环境下高维数据流存在“维数灾难”及数据分布不稳定等问题,传统方法尚难以对如此复杂的数据进行深入的处理和挖掘。针对这些问题,本项目研究了大数据环境下高维数据流的降维、概念漂移检测、分类及关联规则挖掘问题,重点研究了其分类及关联规则挖掘。项目完成了通过矩阵分解技术实现高维数据流挖掘任务分解,进一步利用平衡离散度思想对高维数据流进行线性监督降维,使得高维数据被投影到合适的子空间,得到适合分类的最优低维子空间及低维数的任务。为解决高维数据流的实时性数据挖掘问题,本项目改进并设立了稳定的增量极端学习机分类器,使得数据挖掘模型的迭代和测试速度都显著增加。同时,针对高维数据流的概念漂移问题,本项目提出了利用子空间投影技术对新数据块进行概念漂移的检测的算法,以便及时调整分类器实现实时分类,使得模型对新类型数据依然鲁棒。最后,本项目还设计并实现了基于样本类别信息及原始高维数据块进行有针对性的高效关联规则挖掘的算法。本项目共发表学术论文31篇,其中17篇被SCI索引,13篇被EI索引。项目在高维数据流挖掘的各个方面均提供了切实可行的方法,促进了当下大数据环境下高维数据流的挖掘工作。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
4

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
5

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015

冯林的其他基金

批准号:60773213
批准年份:2007
资助金额:25.00
项目类别:面上项目
批准号:39060023
批准年份:1990
资助金额:3.00
项目类别:地区科学基金项目
批准号:39060060
批准年份:1990
资助金额:3.00
项目类别:地区科学基金项目
批准号:61672130
批准年份:2016
资助金额:63.00
项目类别:面上项目
批准号:61173163
批准年份:2011
资助金额:57.00
项目类别:面上项目
批准号:81201592
批准年份:2012
资助金额:23.00
项目类别:青年科学基金项目
批准号:71303139
批准年份:2013
资助金额:20.00
项目类别:青年科学基金项目
批准号:11404190
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目

相似国自然基金

1

大数据环境下基于同步原理的数据流挖掘算法研究

批准号:61403062
批准年份:2014
负责人:邵俊明
学科分类:F0603
资助金额:25.00
项目类别:青年科学基金项目
2

高维时间序列的数据挖掘算法及应用研究

批准号:60773213
批准年份:2007
负责人:冯林
学科分类:F0201
资助金额:25.00
项目类别:面上项目
3

面向数据流的异常挖掘算法研究

批准号:60673191
批准年份:2006
负责人:蒋盛益
学科分类:F06
资助金额:24.00
项目类别:面上项目
4

基于分形与数据流挖掘技术的动态数据挖掘方法及其应用研究

批准号:61202227
批准年份:2012
负责人:刘慧婷
学科分类:F0210
资助金额:24.00
项目类别:青年科学基金项目