流数据特征抽取技术的研究

基本信息
批准号:61105053
项目类别:青年科学基金项目
资助金额:25.00
负责人:曾雪强
学科分类:
依托单位:南昌大学
批准年份:2011
结题年份:2014
起止时间:2012-01-01 - 2014-12-31
项目状态: 已结题
项目参与者:陶俊才,邹华兴,曾庆鹏,公慧玲,钱昊,王正斌
关键词:
特征抽取流数据特征选择概念漂移
结项摘要

流数据是近年来新出现的一种数据类型,在WEB挖掘、信息安全和物联网等许多应用领域出现频繁,其特征空间的高维性弱化了机器学习算法的泛化能力。特征抽取技术将高维空间变换到低维空间,能够较好的解决高维性问题;但现有的流数据特征抽取算法对流数据的动态性特点解决不好。流数据的动态性主要体现于概念漂移和特征集迁移现象。针对这一问题,本项目主要从流数据的特点入手,研究流数据的特征抽取问题;结合样本加权和时间窗口技术提出解决概念漂移问题的增量式特征抽取算法,将特征选择与特征抽取相结合提出特征集动态更新的增量式特征抽取算法,并提出一套适应流数据特点的特征抽取的新思路和新算法。新算法将提升在高维特征空间情况下的流数据的学习效果,特别是明显存在概念漂移和特征集迁移现象的流数据上的性能。

项目摘要

随着流数据在互联网数据挖掘等许多大规模数据应用领域频繁出现,其特征空间的高维性弱化了传统学习算法的泛化能力。特征抽取技术将高维空间变换到低维空间,能够较好的解决高维性问题;但现有的增量式特征抽取算法对大规模数据的动态性特点解决不好。数据动态性主要体现于概念漂移和特征集迁移现象。针对这一问题,本项目主要从大规模数据的特点入手,研究增量式特征抽取算法;开展的具体研究工作包括:1)设计了单因变量增量式偏最小二乘降维模型,2)提出了一种改进的增量式主成份分析算法,3)对已有的冗余特征选择算法进行了较为详细的对比分析,4)提出了一种新的基于邻近样本的可区分性的冗余特征检测算法。本项目提出的新算法和模型在高维特征空间情况下的大规模数据分析中表现出了优良的学习效果。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于综合治理和水文模型的广西县域石漠化小流域区划研究

基于综合治理和水文模型的广西县域石漠化小流域区划研究

DOI:10.14050/j.cnki.1672-9250.2017.02.014
发表时间:2017
2

基于多色集合理论的医院异常工作流处理建模

基于多色集合理论的医院异常工作流处理建模

DOI:
发表时间:2020
3

智能煤矿建设路线与工程实践

智能煤矿建设路线与工程实践

DOI:10.13199/j.cnki.cst.2020.07.010
发表时间:2020
4

基于直观图的三支概念获取及属性特征分析

基于直观图的三支概念获取及属性特征分析

DOI:10.3778/j.issn.1673-9418.2104120
发表时间:
5

城市生活垃圾热值的特征变量选择方法及预测建模

城市生活垃圾热值的特征变量选择方法及预测建模

DOI:10.11936/bjutxb2021010011
发表时间:2021

曾雪强的其他基金

批准号:61866017
批准年份:2018
资助金额:37.00
项目类别:地区科学基金项目
批准号:61463033
批准年份:2014
资助金额:44.00
项目类别:地区科学基金项目

相似国自然基金

1

基于隐特征抽取的异构数据分类方法研究

批准号:61703219
批准年份:2017
负责人:董爱美
学科分类:F0605
资助金额:20.00
项目类别:青年科学基金项目
2

WEB数据抽取与集成技术研究

批准号:60273018
批准年份:2002
负责人:孟小峰
学科分类:F0202
资助金额:22.00
项目类别:面上项目
3

体数据的特征抽取与光照增强绘制方法

批准号:61379076
批准年份:2013
负责人:梁荣华
学科分类:F0214
资助金额:78.00
项目类别:面上项目
4

高维数据非负稀疏特征抽取及聚类算法研究

批准号:61065003
批准年份:2010
负责人:刘遵雄
学科分类:F0304
资助金额:28.00
项目类别:地区科学基金项目