大规模流数据的在线摘要方法研究

基本信息
批准号:61902305
项目类别:青年科学基金项目
资助金额:29.00
负责人:赵俊舟
学科分类:
依托单位:西安交通大学
批准年份:2019
结题年份:2022
起止时间:2020-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:
关键词:
在线分析处理大规模数据处理大规模图处理大数据流处理
结项摘要

Big data in practice is usually presented as large-scale and high-speed streaming data. Its large volume and high velocity have posed burdens for efficiently managing and processing data. Meanwhile, streaming data usually contains noisy and redundant data, which wastes a lot of computation resources of traditional streaming data processing systems. To address this issue, we propose a set of streaming data summarization techniques that can reduce the size of big data significantly, and also reduce the complexity of subsequent computation. We study two types of streaming data: one is the common data streams, and the other is the graph streams. 1) For common data streams, we propose an efficient online data summarization technique, which enjoys a constant approximation factor. 2) For graph streams, we propose an efficient core nodes tracking algorithm, which also enjoys a constant approximation factor. 3) For graph streams, we design a compact graph sketch data structure, which supports accurate graph query and computation tasks; meanwhile, we propose an efficient graph sketch updating algorithm. Our streaming data summarization techniques can be widely applied in the area including streaming data management, network data analysis, network security, and so on.

大数据在实际应用中经常呈现为大规模高速流数据,给数据管理和处理带来极大挑战。由于流数据中噪声及冗余数据的存在,会使得通过扩展计算能力来提高流数据处理效率的传统流数据处理方式产生计算资源浪费的问题。为解决这一问题,本项目研究一种通过对大数据“瘦身”从而降低后续计算复杂度的流数据在线摘要技术。本项目研究两类流数据:一般数据流和图数据流。1)针对一般数据流,本项目设计一种低复杂度的数据流在线最优摘要算法,证明算法存在常数近似比例。2)针对图数据流,本项目设计一种低复杂度的关键节点在线跟踪算法,证明算法存在常数近似比例。3)针对图数据流,本项目设计一种紧凑的图梗概数据结构,可以支持常用的图查询与图计算操作,并满足精度要求;同时设计一种低复杂度的图梗概结构更新算法。本项目的研究成果可以在流数据管理、网络大数据分析及网络安全监控等方面产生应用。

项目摘要

大数据在实际应用中经常呈现为大规模高速流式数据,给数据管理和计算带来极大挑战。本项目提出开展大规模流式数据在线摘要方法研究,通过对大数据构建梗概摘要(Sketch)结构、子集选择等运算,从而实现去除大数据冗余内容、抽取大数据关键信息,达到降低大数据管理和计算的复杂度的目的。项目团队着重针对两类流式数据开展了研究,分别为一般数据流和图数据流。针对一般数据流,项目团队提出了几种低复杂度的数据流在线摘要算法,可以高效生成当前流式数据紧凑的梗概摘要结构,通过分析该梗概摘要可以实现对原始一般数据流的在线分析,包括基数计数、在线优化等等。针对图数据流,项目团队提出了几种高效的图数据流在线计算方法,可以高效的对图数据流进行子图频数统计,以及进行关键节点在线跟踪。项目团队对以上所提方法进行了深入理论分析:对于估计类问题,项目团队的研究成果可以给出所设计方法的估计误差情况;对于优化类问题,项目团队的研究成果可以从理论上证明近似解与最优解的可用性之间存在常数倍近似比例。本项目的研究成果可以在流式数据库设计、网络大数据分析及网络安全监控等方面产生应用。项目团队经过三年的研究工作,已经在 ACM SIGKDD、IEEE ICDE、IEEE TKDE 等国际知名会议和期刊上发表论文 8 篇,另外有 2 篇期刊和会议论文在审;已申请发明专利 2 项,其中 1 项进入实质性审查阶段;已获得软件著作权 1 项;培养博士生 1 名,硕士生 3 名。.

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
4

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
5

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016

赵俊舟的其他基金

相似国自然基金

1

面向大规模数据流的弱信息在线学习理论与方法研究

批准号:61906165
批准年份:2019
负责人:翟婷婷
学科分类:F0603
资助金额:23.00
项目类别:青年科学基金项目
2

面向大规模流数据的完备性挖掘方法研究

批准号:60403021
批准年份:2004
负责人:靳晓明
学科分类:F0202
资助金额:23.00
项目类别:青年科学基金项目
3

大规模影像集合联合摘要研究

批准号:61601278
批准年份:2016
负责人:李凯
学科分类:F0113
资助金额:22.00
项目类别:青年科学基金项目
4

大规模异质信息网络摘要和摘要可解释性研究

批准号:61872161
批准年份:2018
负责人:王英
学科分类:F0214
资助金额:63.00
项目类别:面上项目