Big Data Stream Computing is an online computing paradigm with multiple low-latency phases on continuous and fast Big Streaming Data. In dynamic environment like burst load, stream computing is apt to be failure in function or fluctuation in performance, which is seldom solved adaptively in workarounds. In this project, we focus on that availability problem, and study the self-adaptive high availability methods through the tradeoff among load, performance and resources. In details, the load dependencies of stream computing would be modeled to evaluate the features on load, performance and resource consumption; the load-sensitive elastic fault tolerance would be investigated to achieve the quasi-optimization between high availability and low overhead; the availability-oriented load balance would be considered for fast processing in burst high load and low cost in normal low load. Our research is expected to improve the availability for stream computing with economical cost, which is significant to promote the guarantee of software infrastructures on Big Data.
大数据流式计算,面向连续产生、高速到达的流式大数据,是一种多阶段、低延迟的实时在线计算范型。在突发负载等动态环境下,流式计算易于出现故障和性能抖动等可用性问题,而现有保障方法难于即时适配和调整。本课题聚焦大数据流式计算的可用性问题,旨在综合权衡负载、计算性能和资源开销等因素,阐明自适应的保障方法。具体包括:流式计算负载关联因素建模,在动态环境下评估计算的负载、性能和开销等特征;负载敏感的弹性容错服务,运行时适配合理的容错策略,拟同时达到计算可用性高和保障服务开销低的近似最优;面向可用性的负载均衡服务,运行时合理分配全局资源和突破局部瓶颈,拟同时达到突发高负载时处理速度快和稳态低负载时能耗低的目标。本课题有望为流式计算改善可用性和降低维护成本做出实质性贡献,对提升大数据软件基础设施的保障水平具有重要意义。
本项目聚焦大数据流式计算的可用性问题,旨在综合权衡负载、计算性能和资源开销等因素,阐明自适应的保障方法。围绕既定的研究内容,项目取得进展及效果如下。(1) 针对流式计算负载关联因素建模及数据预处理,提出面向流式数据的在线协调预处理服务,发明海量时空数据清洗方法与装置,发明特定场景下的流式数据生成环境的构建方法,可面向异构时空数据发现潜在热点。(2) 针对负载敏感的弹性容错,提出动态环境下的高可用的服务建模方法,发明面向可用性检测的大数据计算平台监控系统及方法,给出感知数据的离群点检测方案,提出海量时空数据环境下的高可用平台服务,给出一系列面向时空流式大数据的负载预测服务。(3) 面向可用性的负载均衡服务,提出面向融合型数据处理的混合任务调度,构建保证计算和调度延迟的领域分析方法,建立面向异构系统的作业监控和调度方法,并发明面向异构虚拟化环境的资源调度方法。.项目团队共发表了相关学术论文20篇,录用论文3篇。其中,SCI检索4篇(含一区1篇二区1篇),EI检索5篇(含期刊2篇,会议3篇),中文核心3篇。相关技术作为发明专利已经授权7项,申请中2项。项目负责人获得“北京市科技进步二等奖”,并获批北京市自然科学基金面上项目1项。项目产生了原型系统,部分已经在河南交通厅的河南高速公路联网运行分析系统实现部署与应用。.项目成果可以直接应用于与流式大数据相关的产业,如智能交通、物联网等相关领域,为改善计算可用性和降低维护成本提供支持,对提升大数据软件基础设施的保障水平具有重要意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
"多对多"模式下GEO卫星在轨加注任务规划
智能煤矿建设路线与工程实践
强震过程滑带超间隙水压力效应研究:大光包滑坡启动机制
基于自适应干扰估测器的协作机器人关节速度波动抑制方法
铁路大跨度简支钢桁梁桥车-桥耦合振动研究
大数据流式计算能耗模型及优化研究
基于粒计算的地理空间大数据可用性评估方法研究
大数据平台计算安全保障机制研究
基于异构大数据的流式人工智能计算模式研究