流数据是近年来新出现的一种数据类型,在WEB挖掘、信息安全和物联网等许多应用领域出现频繁,其特征空间的高维性弱化了机器学习算法的泛化能力。特征抽取技术将高维空间变换到低维空间,能够较好的解决高维性问题;但现有的流数据特征抽取算法对流数据的动态性特点解决不好。流数据的动态性主要体现于概念漂移和特征集迁移现象。针对这一问题,本项目主要从流数据的特点入手,研究流数据的特征抽取问题;结合样本加权和时间窗口技术提出解决概念漂移问题的增量式特征抽取算法,将特征选择与特征抽取相结合提出特征集动态更新的增量式特征抽取算法,并提出一套适应流数据特点的特征抽取的新思路和新算法。新算法将提升在高维特征空间情况下的流数据的学习效果,特别是明显存在概念漂移和特征集迁移现象的流数据上的性能。
随着流数据在互联网数据挖掘等许多大规模数据应用领域频繁出现,其特征空间的高维性弱化了传统学习算法的泛化能力。特征抽取技术将高维空间变换到低维空间,能够较好的解决高维性问题;但现有的增量式特征抽取算法对大规模数据的动态性特点解决不好。数据动态性主要体现于概念漂移和特征集迁移现象。针对这一问题,本项目主要从大规模数据的特点入手,研究增量式特征抽取算法;开展的具体研究工作包括:1)设计了单因变量增量式偏最小二乘降维模型,2)提出了一种改进的增量式主成份分析算法,3)对已有的冗余特征选择算法进行了较为详细的对比分析,4)提出了一种新的基于邻近样本的可区分性的冗余特征检测算法。本项目提出的新算法和模型在高维特征空间情况下的大规模数据分析中表现出了优良的学习效果。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
针灸治疗胃食管反流病的研究进展
端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响
面向云工作流安全的任务调度方法
基于隐特征抽取的异构数据分类方法研究
WEB数据抽取与集成技术研究
体数据的特征抽取与光照增强绘制方法
高维数据非负稀疏特征抽取及聚类算法研究