面向海量数据的语境离群点检测技术研究

基本信息
批准号:61170180
项目类别:面上项目
资助金额:55.00
负责人:商琳
学科分类:
依托单位:南京大学
批准年份:2011
结题年份:2015
起止时间:2012-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:薛冰,贾修一,张莉,胡裕靖,史颖欢,李若冰,李文凯,顾佳唯
关键词:
离群点检测粒子群优化数据挖掘粗糙集进化计算
结项摘要

语境离群点和具体的语境环境相关,而针对语境离群点的检测比一般的离群点检测更重要。本项目将研究语境离群点检测模型,着重针对分布、多模态、实时等海量数据特点,设计基于MapReduce云计算框架的并行语境离群点检测算法、基于多模态数据融合的语境离群点检测方法以及基于不同粒度的时序数据语境离群点检测方法,并将其应用在电信业务数据处理和视频图像分析中。项目将结合粗糙集、粒计算、PSO、进化计算等方法,对分布式语境离群点的数据表示、多模态数据的融合、并行数据挖掘算法设计和云计算环境下的数据集成等关键问题进行研究。项目的研究范围涉及海量数据挖掘、机器学习、粒计算等多个领域,具有广泛的实际应用价值,其在视频图像分析中的应用更具有重要的社会价值。

项目摘要

离群点检测,也称为异常检测,其目的在于找出隐含在大量数据中相对稀疏而孤立的异常数据模式。大多数情况下离群数据如果脱离了具体的环境就没有意义,所以针对语境离群点的检测就比一般的离群点检测更重要。目前语境离群点检测中比较直接的做法是先定义出语境,然后将这些语境作为先验知识应用到已有的离群点检测方法中。但现实的困难是语境属性值较难定义, 尤其在大数据时代,面对的数据呈现出分布、异构、海量等特性,各类应用更关注高维数据处理和计算能力的提高。.本项目针对海量数据语境离群点检测的关键问题,在数据预处理、多模态数据融合、并行数据挖掘算法以及异常检测这四方面展开了研究工作。在数据预处理方面,研究了决策粗糙集模型中基于最小化决策代价的优化问题,提出了基于启发式方法和粒子群优化方法的最小化决策代价的属性约简算法;研究了多目标优化问题以及粒子更新过程,提出了基于领域知识和粒子群优化算法的特征选择方法。在多模态数据融合方面,研究了新浪微博数据中文本和图像的数据特点,提出了一种基于并行融合的多模态分析方法,通过进一步波动分析,可以实现对异常或突发事件的检测;基于社交网络的多语境建模方法,通过潜在语义分析(LSA)将文本特征和图像特征分别映射到低维度语义空间,提出了一种基于融合语义特征的分类方法。在并行数据挖掘算法方面,基于Hadoop平台,从随机梯度下降类算法的并行化理论出发,提出了并行化SVM求解方法P- Pegasos;研究并行化粗糙集属性约简方法,提出了一种基于典型相关性分析(CCA)的属性融合方法,并通过属性重要度的计算,在MapReduce分布式编程框架下,实现了一种并行化粗糙集约简。在语境离群点检测应用方面,研究了视频数据中的时空特性,融合空间信息,提出改进的基于LDA的码书生成方法, 通过检测原子行为实现了视频异常检测;研究了拥挤场景的视频特征,提出了一种基于遗传编程(GP)的拥挤场景视频异常检测方法。.本项目从海量数据的特点出发,着重针对数据处理和计算能力两方面,研究了基于MapReduce云计算框架的并行数据挖掘方法、基于多模态数据融合方法以及基于决策粗糙集和进化计算的属性约简方法,并应用在视频异常检测中。项目的研究具有广泛的应用价值,其在视频行为分析中的应用更具有重要的社会价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020
3

氯盐环境下钢筋混凝土梁的黏结试验研究

氯盐环境下钢筋混凝土梁的黏结试验研究

DOI:10.3969/j.issn.1001-8360.2019.08.011
发表时间:2019
4

基于全模式全聚焦方法的裂纹超声成像定量检测

基于全模式全聚焦方法的裂纹超声成像定量检测

DOI:10.19650/j.cnki.cjsi.J2007019
发表时间:2021
5

基于图卷积网络的归纳式微博谣言检测新方法

基于图卷积网络的归纳式微博谣言检测新方法

DOI:10.3785/j.issn.1008-973x.2022.05.013
发表时间:2022

商琳的其他基金

批准号:60503022
批准年份:2005
资助金额:23.00
项目类别:青年科学基金项目

相似国自然基金

1

面向FAST的海量数据处理关键技术研究

批准号:U1531246
批准年份:2015
负责人:朱明
学科分类:A1503
资助金额:200.00
项目类别:联合基金项目
2

面向森林变化监测的海量遥感数据并行处理技术研究

批准号:31770768
批准年份:2017
负责人:景维鹏
学科分类:C1614
资助金额:60.00
项目类别:面上项目
3

面向跨类型离群检测的度量空间索引构建方法研究

批准号:61802063
批准年份:2018
负责人:许红龙
学科分类:F0211
资助金额:21.00
项目类别:青年科学基金项目
4

基于海量网络数据的未知高级间谍软件行为检测技术研究

批准号:U1736218
批准年份:2017
负责人:严寒冰
学科分类:F02
资助金额:253.00
项目类别:联合基金项目