云平台并行数据流程序的中间数据管理优化技术

基本信息
批准号:61202065
项目类别:青年科学基金项目
资助金额:23.00
负责人:刘杰
学科分类:
依托单位:中国科学院软件研究所
批准年份:2012
结题年份:2015
起止时间:2013-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:魏峻,孙耀,严慧,许利杰,朱锋,张晓杰
关键词:
数据密集型计算云平台性能优化并行数据流程序中间数据
结项摘要

Parallel dataflow programming frameworks (e.g., MapReduce, Dryad, Pig and Hive) have been widely applied in processing big data both in academy and industry. From the perspective of underlying system, a critical problem is how to manage the massive intermediate data which are generated during the execution of parallel dataflow programs. In practice, a large space of memory and disk will be occupied for storing intermediate data. Network overhead is common while transferring these massive intermediate data among distributed computing nodes. Fault-tolerant and fast recovery mechanisms are also needed to keep the high availability of these data. Furthermore, the sharing and elastic cloud platform increases the difficulty of intermediate data management since multiple parallel dataflow programs will run concurrently. How to store these diverse intermediate data from different programs and how to schedule the transferring of these data under different Service Level Agreements are two major challenges..This project aims to develop a new specific intermediate data management system considering various aspects such as data, resource utilization, fault-tolerance and performance. Firstly, we need to understand and delve into the characteristics of intermediate data. They are almost short-lived and accessed in the form of write-once-read-once. Other features (e.g., data size and distribution) follow the semantics of the concrete programs. Secondly, we will focus on intermediate data's cost-effective storage, reliable but efficient transmission and fault tolerance. Thirdly, we will build a new and actual storage system towards intermediate data based on distributed memory cache. Fourthly, we will present new schedule strategies of intermediate data transferring especially for concurrent parallel dataflow programs running in the cloud. Finally, we will integrated the system with Hadoop and evaluate its performance. We wish this project can improve run-time performance and fault-tolerance of cloud applications, and lead to new cloud programming paradigms.

并行数据流编程框架如MapReduce、Dryad、Pig等被广泛应用于处理日益增长的数据。并行数据流程序执行时产生海量的中间数据,占用大量存储资源。同时,中间数据分布式产生,需要在大量节点间进行传输。另外,中间数据的容错机制也严重影响系统性能。此外,大量并行数据流程序的并发运行于云平台,对中间数据管理的任务调度和资源管理提出挑战。.本课题充分考虑中间数据特殊读写模式、生命周期短、与应用语义密切相关的特点,在云平台背景下研究并行数据流程序的海量中间数据的存储、传输、容错的优化技术,包括:基于分布式协同缓存优化并行数据流程序的中间数据访问;QoS保障的中间数据传输调度策略;应用语义感知的中间数据容错策略。本课题将实现中间数据管理原型系统,并集成到Hadoop平台,同时通过实验评价其优化效果。本课题有利于优化基于并行数据流编程框架的云应用性能,并大大降低资源成本。

项目摘要

并行数据流编程框架如MapReduce、Spark、Dryad、Pig 等被广泛应用于处理日益增长的数据。并行数据流程序执行时产生海量的中间数据,占用大量存储资源。同时,中间数据分布式产生,需要在大量节点间进行传输。另外,中间数据的容错机制也严重影响系统性能。此外,大量并行数据流程序的并发运行于云平台,对中间数据管理的任务调度和资源管理提出挑战。.本课题主要从中间数据内存管理切入,研究中间数据的内存用量估算与预测技术,中间数据内存溢出错误诊断技术,并研发了MapReduce工作流系统,对所提出的关键技术进行验证,并开展了实际的推广应用。具体来讲,包含以下研究内容: .(1) 内存用量模型构建与用量估算:研究目的是构建应用的内存用量模型,量化应用的静态因素(数据、配置、用户代码)与动态内存用量的关系,并估算出新应用的内存用量。我们以数据流为中心构建了应用内存用量模型,模型包含数据流模型、框架内存用量模型和用户代码内存用量模型。为了解决如何在用户代码未知的情况下构建用户代码内存用量与其输入数据之间关系的问题,我们在用户代码模型中设计了生命周期敏感的内存用量监控方法。在内存用量模型的基础上,我们通过在小数据上运行应用来估算该应用在大数据集上的内存用量。.(2) 内存溢出错误的诊断方法:研究目的是设计出内存溢出错误诊断方法及工具。本文基于内存用量模型设计了一个内存分析器Mprof。Mprof可以自动建立应用静态因素与动态内存用量之间的关系,方法是重建应用数据流,重建用户代码内存使用历史信息,并对两者进行关联分析。Mprof也包含定量诊断规则,这些规则根据应用静态因素与动态内存用量之间的关系自底向上定位内存溢出错误相关的代码段,错误相关的数据,以及不恰当的配置参数。.(3) MapReduce流程建模与执行系统:研究目的是充分考虑中间数据特点,设计一种优化的MapReduce工作流模型,用于实现多个MapReduce任务的并行执行与中间数据流转。提出一个MapReduce逻辑模型,并研究算法实现向Oozie工作流模型的自动翻译技术。研发了可视化的工作,支持用户设计MapReduce工作流模型,并执行。可用于复杂大数据预处理与机器学习应用。.本课题有利于优化基于并行数据流编程框架的云应用性能,并大大降低资源成本。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

特斯拉涡轮机运行性能研究综述

特斯拉涡轮机运行性能研究综述

DOI:10.16507/j.issn.1006-6055.2021.09.006
发表时间:2021
4

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

DOI:10.3969/j.issn.1002-0268.2020.03.007
发表时间:2020
5

氯盐环境下钢筋混凝土梁的黏结试验研究

氯盐环境下钢筋混凝土梁的黏结试验研究

DOI:10.3969/j.issn.1001-8360.2019.08.011
发表时间:2019

刘杰的其他基金

批准号:81501314
批准年份:2015
资助金额:18.00
项目类别:青年科学基金项目
批准号:21171070
批准年份:2011
资助金额:60.00
项目类别:面上项目
批准号:20871056
批准年份:2008
资助金额:33.00
项目类别:面上项目
批准号:51406007
批准年份:2014
资助金额:26.00
项目类别:青年科学基金项目
批准号:11475027
批准年份:2014
资助金额:90.00
项目类别:面上项目
批准号:10775161
批准年份:2007
资助金额:38.00
项目类别:面上项目
批准号:50308015
批准年份:2003
资助金额:18.00
项目类别:青年科学基金项目
批准号:61078032
批准年份:2010
资助金额:36.00
项目类别:面上项目
批准号:41706065
批准年份:2017
资助金额:25.00
项目类别:青年科学基金项目
批准号:21803065
批准年份:2018
资助金额:27.00
项目类别:青年科学基金项目
批准号:11775030
批准年份:2017
资助金额:66.00
项目类别:面上项目
批准号:30770959
批准年份:2007
资助金额:30.00
项目类别:面上项目
批准号:51905422
批准年份:2019
资助金额:25.00
项目类别:青年科学基金项目
批准号:21406051
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:51373171
批准年份:2013
资助金额:82.00
项目类别:面上项目
批准号:41571059
批准年份:2015
资助金额:70.00
项目类别:面上项目
批准号:60970033
批准年份:2009
资助金额:31.00
项目类别:面上项目
批准号:51804110
批准年份:2018
资助金额:21.00
项目类别:青年科学基金项目
批准号:60970112
批准年份:2009
资助金额:29.00
项目类别:面上项目
批准号:71903030
批准年份:2019
资助金额:19.00
项目类别:青年科学基金项目
批准号:61371194
批准年份:2013
资助金额:82.00
项目类别:面上项目
批准号:81903181
批准年份:2019
资助金额:21.50
项目类别:青年科学基金项目
批准号:31040071
批准年份:2010
资助金额:10.00
项目类别:专项基金项目
批准号:10474008
批准年份:2004
资助金额:26.00
项目类别:面上项目
批准号:30570835
批准年份:2005
资助金额:25.00
项目类别:面上项目
批准号:31770367
批准年份:2017
资助金额:60.00
项目类别:面上项目
批准号:11626087
批准年份:2016
资助金额:3.00
项目类别:数学天元基金项目
批准号:31572236
批准年份:2015
资助金额:65.00
项目类别:面上项目
批准号:31501297
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目
批准号:31901549
批准年份:2019
资助金额:25.00
项目类别:青年科学基金项目
批准号:81502320
批准年份:2015
资助金额:18.00
项目类别:青年科学基金项目
批准号:91129702
批准年份:2011
资助金额:60.00
项目类别:重大研究计划
批准号:51305276
批准年份:2013
资助金额:25.00
项目类别:青年科学基金项目
批准号:31600155
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:11902085
批准年份:2019
资助金额:20.00
项目类别:青年科学基金项目
批准号:81671551
批准年份:2016
资助金额:60.00
项目类别:面上项目
批准号:51204035
批准年份:2012
资助金额:25.00
项目类别:青年科学基金项目
批准号:21877051
批准年份:2018
资助金额:67.00
项目类别:面上项目
批准号:81630016
批准年份:2016
资助金额:275.00
项目类别:重点项目
批准号:60673150
批准年份:2006
资助金额:27.00
项目类别:面上项目
批准号:31501145
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目
批准号:81571836
批准年份:2015
资助金额:56.00
项目类别:面上项目
批准号:51009083
批准年份:2010
资助金额:20.00
项目类别:青年科学基金项目
批准号:40701173
批准年份:2007
资助金额:20.00
项目类别:青年科学基金项目
批准号:31371159
批准年份:2013
资助金额:86.00
项目类别:面上项目
批准号:50578169
批准年份:2005
资助金额:26.00
项目类别:面上项目
批准号:61404170
批准年份:2014
资助金额:29.00
项目类别:青年科学基金项目
批准号:41471270
批准年份:2014
资助金额:86.00
项目类别:面上项目
批准号:81571685
批准年份:2015
资助金额:56.00
项目类别:面上项目
批准号:21402219
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:51674066
批准年份:2016
资助金额:60.00
项目类别:面上项目
批准号:50273002
批准年份:2002
资助金额:22.00
项目类别:面上项目
批准号:30371585
批准年份:2003
资助金额:20.00
项目类别:面上项目
批准号:21606248
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:51103154
批准年份:2011
资助金额:25.00
项目类别:青年科学基金项目
批准号:39970926
批准年份:1999
资助金额:11.00
项目类别:面上项目
批准号:50878084
批准年份:2008
资助金额:32.00
项目类别:面上项目
批准号:11202076
批准年份:2012
资助金额:26.00
项目类别:青年科学基金项目
批准号:31171096
批准年份:2011
资助金额:65.00
项目类别:面上项目
批准号:31772420
批准年份:2017
资助金额:62.00
项目类别:面上项目
批准号:11574245
批准年份:2015
资助金额:62.00
项目类别:面上项目
批准号:11179003
批准年份:2011
资助金额:240.00
项目类别:联合基金项目
批准号:51579138
批准年份:2015
资助金额:63.00
项目类别:面上项目
批准号:50903067
批准年份:2009
资助金额:20.00
项目类别:青年科学基金项目
批准号:61105049
批准年份:2011
资助金额:24.00
项目类别:青年科学基金项目
批准号:21901081
批准年份:2019
资助金额:24.00
项目类别:青年科学基金项目
批准号:19674011
批准年份:1996
资助金额:9.00
项目类别:面上项目
批准号:41001186
批准年份:2010
资助金额:20.00
项目类别:青年科学基金项目
批准号:61672361
批准年份:2016
资助金额:63.00
项目类别:面上项目
批准号:50673011
批准年份:2006
资助金额:31.00
项目类别:面上项目
批准号:81703074
批准年份:2017
资助金额:20.00
项目类别:青年科学基金项目
批准号:51606102
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:11803041
批准年份:2018
资助金额:26.00
项目类别:青年科学基金项目
批准号:41867022
批准年份:2018
资助金额:40.00
项目类别:地区科学基金项目
批准号:30970777
批准年份:2009
资助金额:30.00
项目类别:面上项目
批准号:20471070
批准年份:2004
资助金额:22.00
项目类别:面上项目
批准号:21706036
批准年份:2017
资助金额:27.00
项目类别:青年科学基金项目
批准号:30471410
批准年份:2004
资助金额:8.00
项目类别:面上项目
批准号:39200111
批准年份:1992
资助金额:5.00
项目类别:青年科学基金项目
批准号:91021021
批准年份:2010
资助金额:55.00
项目类别:重大研究计划
批准号:31272268
批准年份:2012
资助金额:78.00
项目类别:面上项目
批准号:51478259
批准年份:2014
资助金额:78.00
项目类别:面上项目
批准号:50775029
批准年份:2007
资助金额:32.00
项目类别:面上项目
批准号:11274051
批准年份:2012
资助金额:88.00
项目类别:面上项目
批准号:51073011
批准年份:2010
资助金额:38.00
项目类别:面上项目
批准号:51504140
批准年份:2015
资助金额:21.00
项目类别:青年科学基金项目
批准号:10975164
批准年份:2009
资助金额:43.00
项目类别:面上项目
批准号:51773231
批准年份:2017
资助金额:61.00
项目类别:面上项目
批准号:11675233
批准年份:2016
资助金额:80.00
项目类别:面上项目
批准号:39980041
批准年份:1999
资助金额:13.00
项目类别:专项基金项目
批准号:11572115
批准年份:2015
资助金额:60.00
项目类别:面上项目
批准号:81501989
批准年份:2015
资助金额:18.00
项目类别:青年科学基金项目
批准号:11101394
批准年份:2011
资助金额:23.00
项目类别:青年科学基金项目
批准号:21371075
批准年份:2013
资助金额:80.00
项目类别:面上项目
批准号:31000078
批准年份:2010
资助金额:20.00
项目类别:青年科学基金项目
批准号:39970190
批准年份:1999
资助金额:14.00
项目类别:面上项目
批准号:21573108
批准年份:2015
资助金额:66.00
项目类别:面上项目
批准号:61804049
批准年份:2018
资助金额:24.00
项目类别:青年科学基金项目
批准号:51078140
批准年份:2010
资助金额:40.00
项目类别:面上项目
批准号:61573011
批准年份:2015
资助金额:48.00
项目类别:面上项目
批准号:51508564
批准年份:2015
资助金额:23.00
项目类别:青年科学基金项目
批准号:31671179
批准年份:2016
资助金额:61.00
项目类别:面上项目
批准号:10375079
批准年份:2003
资助金额:36.00
项目类别:面上项目
批准号:50172004
批准年份:2001
资助金额:25.00
项目类别:联合基金项目
批准号:41402276
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:30570418
批准年份:2005
资助金额:27.00
项目类别:面上项目
批准号:41271032
批准年份:2012
资助金额:70.00
项目类别:面上项目
批准号:30340058
批准年份:2003
资助金额:9.00
项目类别:专项基金项目
批准号:31200182
批准年份:2012
资助金额:22.00
项目类别:青年科学基金项目
批准号:41163003
批准年份:2011
资助金额:49.00
项目类别:地区科学基金项目
批准号:21872069
批准年份:2018
资助金额:64.00
项目类别:面上项目
批准号:61475089
批准年份:2014
资助金额:80.00
项目类别:面上项目
批准号:51103183
批准年份:2011
资助金额:25.00
项目类别:青年科学基金项目
批准号:51801134
批准年份:2018
资助金额:27.00
项目类别:青年科学基金项目
批准号:U1633103
批准年份:2016
资助金额:36.00
项目类别:联合基金项目
批准号:71771201
批准年份:2017
资助金额:48.00
项目类别:面上项目
批准号:30973122
批准年份:2009
资助金额:38.00
项目类别:面上项目
批准号:40802053
批准年份:2008
资助金额:20.00
项目类别:青年科学基金项目

相似国自然基金

1

面向高性能云平台的并行程序优化关键技术研究

批准号:61472201
批准年份:2014
负责人:翟季冬
学科分类:F0204
资助金额:84.00
项目类别:面上项目
2

并行、多平台“云测试”的关键技术研究

批准号:61379045
批准年份:2013
负责人:张震宇
学科分类:F0203
资助金额:73.00
项目类别:面上项目
3

基于数据流分析的顺序程序并行转换智能化方法的研究

批准号:69103307
批准年份:1991
负责人:鄢勇
学科分类:F0204
资助金额:3.50
项目类别:青年科学基金项目
4

GPU并行程序自动优化方法研究

批准号:61562070
批准年份:2015
负责人:蔺勇
学科分类:F0204
资助金额:22.00
项目类别:地区科学基金项目