面向海量数据流处理的隐式世系跟踪容错方法研究

基本信息
批准号:61772231
项目类别:面上项目
资助金额:61.00
负责人:马坤
学科分类:
依托单位:济南大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:孙润元,于自强,纪科,刘伟峰,唐子杰,张宇微,张智超,郭瑶
关键词:
开销容错故障恢复离群数据流处理
结项摘要

To address the bottleneck issues of MapReduce-based batch computing, stream-based processing becomes the research hotspot. However, large-scale state synchronization and performance interference will affect data processing seriously, and too many stragglers will increase the error probability. This study researches the fault tolerance of stream processing from the aspects of cost model, load balancing, straggler discovery, and fault recovery. This project will first research the cost-aware load balancing method, establish the area-based non-linear cost models to reduce the shake of high latency, and add the feedback loop to support iterative optimization algorithm in the stream-based topology. Second, this project will research the sliding time window method of low watermark to address straggler discovery and distinguish delay received from processing fault. Finally, this project will research the upstream mutual backup fault recovery based on batch state dependency to reduce the duplicated overlapping computation, the time to reconstruct the state, and the amount of data replay. This research and its achievements can improve the availability and reliability, and has important implications for stream processing applications.

为了解决传统以MapReduce为代表的批量计算在实时处理方面的瓶颈,流处理方法成为大数据处理的研究热点。然而海量数据流处理过程中的大量状态同步与性能干扰严重影响数据处理,离群数据增大故障误判概率。本项目从流计算开销模型、负载均衡、离群数据发现、故障恢复策略研究面向海量数据流处理容错,1)研究开销敏感弹性负载均衡,建立基于面积的非线性开销敏感模型与基于标准熵的均衡模型,减少高时延抖动,为流处理网络拓扑增加反馈,解决现有流处理网络无法运行迭代递归优化算法的问题;2)研究基于低水位滑动时间窗口的离群数据发现,在低水位滑动时间窗口内有效区分数据延迟到达与数据处理故障,减少故障恢复误判次数;3)研究基于批量状态依赖的并行上游备份故障恢复策略,减少故障恢复时层叠的重复计算、故障恢复状态重构时间和数据重放数量。该项目研究及其成果提高流处理的可用与可靠性,对推动流处理应用具有重要意义。

项目摘要

为了解决传统以MapReduce为代表的批量计算在实时处理方面的瓶颈,流处理方法成为大数据处理的研究热点。然而海量数据流处理过程中的大量状态同步与性能干扰严重影响数据处理,离群数据增大故障误判概率。本项目从流计算开销模型、负载均衡、离群数据发现、故障恢复策略研究面向海量数据流处理容错,1)研究了开销敏感弹性负载均衡,建立基于面积的非线性开销敏感模型与基于标准熵的均衡模型,减少高时延抖动,为流处理网络拓扑增加反馈,解决现有流处理网络无法运行迭代递归优化算法的问题;2)研究了基于低水位滑动时间窗口的离群数据发现,在低水位滑动时间窗口内有效区分数据延迟到达与数据处理故障,减少故障恢复误判次数;3)研究了基于批量状态依赖的并行上游备份故障恢复策略,减少故障恢复时层叠的重复计算、故障恢复状态重构时间和数据重放数量。该项目研究及其成果提高流处理的可用与可靠性,对推动流处理应用具有重要意义。项目发表论文31篇,授权发明专利6项,取得山东省科技进步奖二等奖和三等奖各1项。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
3

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

DOI:10.7606/j.issn.1000-7601.2022.03.25
发表时间:2022
4

针灸治疗胃食管反流病的研究进展

针灸治疗胃食管反流病的研究进展

DOI:
发表时间:2022
5

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

DOI:
发表时间:2020

马坤的其他基金

相似国自然基金

1

时序大数据流下的海量规则并行处理研究

批准号:61872443
批准年份:2018
负责人:张桂刚
学科分类:F0202
资助金额:16.00
项目类别:面上项目
2

面向分布式迭代数据处理的高效容错机制

批准号:61902128
批准年份:2019
负责人:徐辰
学科分类:F0202
资助金额:26.00
项目类别:青年科学基金项目
3

热工过程海量实时数据流信息熵分析与协调处理方法研究

批准号:51176030
批准年份:2011
负责人:司风琪
学科分类:E0601
资助金额:57.00
项目类别:面上项目
4

实时数据流处理系统中负载均衡与容错机制的融合方法研究

批准号:61802273
批准年份:2018
负责人:房俊华
学科分类:F0202
资助金额:25.00
项目类别:青年科学基金项目