In recent years, streaming computing that provides real-time/online processing capability for stream data has become a hotspot for large data research and application. As data centers and cloud computing become the mainstream of big data processing, the distributed stream processing model(DSPS) has obtained more and more attention. However, the exponential growth of data is still a great challenge for stream processing technology. Thus, as a technique to reduce resource consumption, improve processing efficiency and meet real-time demand, approximate computing (AC) is indispensable in stream data processing. But the related research work about the approximate computing of stream data is still insufficient. The proposed project focuses on real-time approximate processing of stream data to study the error and its propagation, correlation model in the key links of distributed stream processing systems. And it also studies the quality evaluation methods and quality monitoring mechanism for input/output data and AC process; studies customizable quality assurance strategies, etc. Therefore, this project will provide the theoretical reference model and experimental verification for further application of stream data AC technology in data centers and cloud computing platform, which has significant theoretical and practical values.
近年来,面向流数据提供实时\在线处理能力的流式计算成为大数据研究和应用的热点。随着数据中心和云计算成为大数据处理的主流模式,分布式流数据处理模型(DSPS)得到广泛关注。然而数据的指数级增长仍为流处理技术带来了极大挑战,因此近似计算作为减少资源消耗、提高处理效率、满足实时性需求的方法,将成为流数据处理中不可或缺的关键技术。但流数据近似计算的相关研究工作目前还很不充分。申请课题将面向流数据实时近似处理相关技术,研究分布式流数据处理系统中关键环节的误差产生、传播和关联模型;研究输入/输出数据和近似计算过程的质量评价方法和质量监控机制;研究可定制的质量保证策略等。本项研究将为流数据近似计算技术在数据中心和云计算平台的深入应用,提供理论参考模型和实验验证,具有重要的理论和应用价值。
近年来可提供实时处理能力的流式计算已成为大数据研究和应用领域关注的热点。虽然面向在线处理需求的分布式流数据处理模型已被广泛应用于加快数据处理速度,但是数据的指数级增长和实时性需求的增加仍为流数据处理带来了极大挑战。近似计算技术通过牺牲少量精确度,能够有效地缓解大规模流数据处理的高耗时和高时效性之间的矛盾。本课题研究分布式流数据处理中的近似计算中的在线质量保证机制,以提高大规模流数据处理系统的处理效率、减少资源消耗、满足实时性需求。课题研究了分布式大规模数据处理中基于GPGPU的误差产生、传播模型,提出了首个基于软错误感知的GPGPU程序近似分析框架,并构建了基于GPGPU平台的软错误预测模型,进而设计了一种高能效的ECC机制;基于采样理论系统地建立了数据质量评估体系;提出了适用于无线网络这一典型流数据处理的近似数据收集算法,设计了USN中数据采样节点的部署优化和近似数据重建策略;研究并实现了质量可控的分布式流数据处理引擎;针对深度学习这里典型应用,研究了基于剪枝的网络模型近似算法。项目的相关研究成果是构建分布式流数据近似计算的理论基础和核心技术,具有重要的理论和应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
质量保证的数据流压缩算法及不解压查询算法
产品质量保证策略与质保服务运作研究
高维、离散、多数据流数据的在线监控
大规模流数据的在线摘要方法研究