To address the bottleneck issues of MapReduce-based batch computing, stream-based processing becomes the research hotspot. However, large-scale state synchronization and performance interference will affect data processing seriously, and too many stragglers will increase the error probability. This study researches the fault tolerance of stream processing from the aspects of cost model, load balancing, straggler discovery, and fault recovery. This project will first research the cost-aware load balancing method, establish the area-based non-linear cost models to reduce the shake of high latency, and add the feedback loop to support iterative optimization algorithm in the stream-based topology. Second, this project will research the sliding time window method of low watermark to address straggler discovery and distinguish delay received from processing fault. Finally, this project will research the upstream mutual backup fault recovery based on batch state dependency to reduce the duplicated overlapping computation, the time to reconstruct the state, and the amount of data replay. This research and its achievements can improve the availability and reliability, and has important implications for stream processing applications.
为了解决传统以MapReduce为代表的批量计算在实时处理方面的瓶颈,流处理方法成为大数据处理的研究热点。然而海量数据流处理过程中的大量状态同步与性能干扰严重影响数据处理,离群数据增大故障误判概率。本项目从流计算开销模型、负载均衡、离群数据发现、故障恢复策略研究面向海量数据流处理容错,1)研究开销敏感弹性负载均衡,建立基于面积的非线性开销敏感模型与基于标准熵的均衡模型,减少高时延抖动,为流处理网络拓扑增加反馈,解决现有流处理网络无法运行迭代递归优化算法的问题;2)研究基于低水位滑动时间窗口的离群数据发现,在低水位滑动时间窗口内有效区分数据延迟到达与数据处理故障,减少故障恢复误判次数;3)研究基于批量状态依赖的并行上游备份故障恢复策略,减少故障恢复时层叠的重复计算、故障恢复状态重构时间和数据重放数量。该项目研究及其成果提高流处理的可用与可靠性,对推动流处理应用具有重要意义。
为了解决传统以MapReduce为代表的批量计算在实时处理方面的瓶颈,流处理方法成为大数据处理的研究热点。然而海量数据流处理过程中的大量状态同步与性能干扰严重影响数据处理,离群数据增大故障误判概率。本项目从流计算开销模型、负载均衡、离群数据发现、故障恢复策略研究面向海量数据流处理容错,1)研究了开销敏感弹性负载均衡,建立基于面积的非线性开销敏感模型与基于标准熵的均衡模型,减少高时延抖动,为流处理网络拓扑增加反馈,解决现有流处理网络无法运行迭代递归优化算法的问题;2)研究了基于低水位滑动时间窗口的离群数据发现,在低水位滑动时间窗口内有效区分数据延迟到达与数据处理故障,减少故障恢复误判次数;3)研究了基于批量状态依赖的并行上游备份故障恢复策略,减少故障恢复时层叠的重复计算、故障恢复状态重构时间和数据重放数量。该项目研究及其成果提高流处理的可用与可靠性,对推动流处理应用具有重要意义。项目发表论文31篇,授权发明专利6项,取得山东省科技进步奖二等奖和三等奖各1项。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
针灸治疗胃食管反流病的研究进展
端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响
时序大数据流下的海量规则并行处理研究
面向分布式迭代数据处理的高效容错机制
热工过程海量实时数据流信息熵分析与协调处理方法研究
实时数据流处理系统中负载均衡与容错机制的融合方法研究