云平台并行数据流程序的中间数据管理优化技术

基本信息

批准号：61202065

项目类别：青年科学基金项目

资助金额：23.00

负责人：刘杰

学科分类：

依托单位：中国科学院软件研究所

批准年份：2012

结题年份：2015

起止时间：2013-01-01 - 2015-12-31

项目状态：已结题

项目参与者：魏峻,孙耀,严慧,许利杰,朱锋,张晓杰

关键词：

数据密集型计算云平台性能优化并行数据流程序中间数据

结项摘要

Parallel dataflow programming frameworks (e.g., MapReduce, Dryad, Pig and Hive) have been widely applied in processing big data both in academy and industry. From the perspective of underlying system, a critical problem is how to manage the massive intermediate data which are generated during the execution of parallel dataflow programs. In practice, a large space of memory and disk will be occupied for storing intermediate data. Network overhead is common while transferring these massive intermediate data among distributed computing nodes. Fault-tolerant and fast recovery mechanisms are also needed to keep the high availability of these data. Furthermore, the sharing and elastic cloud platform increases the difficulty of intermediate data management since multiple parallel dataflow programs will run concurrently. How to store these diverse intermediate data from different programs and how to schedule the transferring of these data under different Service Level Agreements are two major challenges..This project aims to develop a new specific intermediate data management system considering various aspects such as data, resource utilization, fault-tolerance and performance. Firstly, we need to understand and delve into the characteristics of intermediate data. They are almost short-lived and accessed in the form of write-once-read-once. Other features (e.g., data size and distribution) follow the semantics of the concrete programs. Secondly, we will focus on intermediate data's cost-effective storage, reliable but efficient transmission and fault tolerance. Thirdly, we will build a new and actual storage system towards intermediate data based on distributed memory cache. Fourthly, we will present new schedule strategies of intermediate data transferring especially for concurrent parallel dataflow programs running in the cloud. Finally, we will integrated the system with Hadoop and evaluate its performance. We wish this project can improve run-time performance and fault-tolerance of cloud applications, and lead to new cloud programming paradigms.

并行数据流编程框架如MapReduce、Dryad、Pig等被广泛应用于处理日益增长的数据。并行数据流程序执行时产生海量的中间数据，占用大量存储资源。同时，中间数据分布式产生，需要在大量节点间进行传输。另外，中间数据的容错机制也严重影响系统性能。此外，大量并行数据流程序的并发运行于云平台，对中间数据管理的任务调度和资源管理提出挑战。.本课题充分考虑中间数据特殊读写模式、生命周期短、与应用语义密切相关的特点，在云平台背景下研究并行数据流程序的海量中间数据的存储、传输、容错的优化技术，包括：基于分布式协同缓存优化并行数据流程序的中间数据访问；QoS保障的中间数据传输调度策略；应用语义感知的中间数据容错策略。本课题将实现中间数据管理原型系统，并集成到Hadoop平台，同时通过实验评价其优化效果。本课题有利于优化基于并行数据流编程框架的云应用性能，并大大降低资源成本。

项目摘要

并行数据流编程框架如MapReduce、Spark、Dryad、Pig 等被广泛应用于处理日益增长的数据。并行数据流程序执行时产生海量的中间数据，占用大量存储资源。同时，中间数据分布式产生，需要在大量节点间进行传输。另外，中间数据的容错机制也严重影响系统性能。此外，大量并行数据流程序的并发运行于云平台，对中间数据管理的任务调度和资源管理提出挑战。.本课题主要从中间数据内存管理切入，研究中间数据的内存用量估算与预测技术，中间数据内存溢出错误诊断技术，并研发了MapReduce工作流系统，对所提出的关键技术进行验证，并开展了实际的推广应用。具体来讲，包含以下研究内容： .(1) 内存用量模型构建与用量估算：研究目的是构建应用的内存用量模型，量化应用的静态因素（数据、配置、用户代码）与动态内存用量的关系，并估算出新应用的内存用量。我们以数据流为中心构建了应用内存用量模型，模型包含数据流模型、框架内存用量模型和用户代码内存用量模型。为了解决如何在用户代码未知的情况下构建用户代码内存用量与其输入数据之间关系的问题，我们在用户代码模型中设计了生命周期敏感的内存用量监控方法。在内存用量模型的基础上，我们通过在小数据上运行应用来估算该应用在大数据集上的内存用量。.(2) 内存溢出错误的诊断方法：研究目的是设计出内存溢出错误诊断方法及工具。本文基于内存用量模型设计了一个内存分析器Mprof。Mprof可以自动建立应用静态因素与动态内存用量之间的关系，方法是重建应用数据流，重建用户代码内存使用历史信息，并对两者进行关联分析。Mprof也包含定量诊断规则，这些规则根据应用静态因素与动态内存用量之间的关系自底向上定位内存溢出错误相关的代码段，错误相关的数据，以及不恰当的配置参数。.(3) MapReduce流程建模与执行系统：研究目的是充分考虑中间数据特点，设计一种优化的MapReduce工作流模型，用于实现多个MapReduce任务的并行执行与中间数据流转。提出一个MapReduce逻辑模型，并研究算法实现向Oozie工作流模型的自动翻译技术。研发了可视化的工作，支持用户设计MapReduce工作流模型，并执行。可用于复杂大数据预处理与机器学习应用。.本课题有利于优化基于并行数据流编程框架的云应用性能，并大大降低资源成本。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：

发表时间：2021

DOI：10.1360/SSM-2020-0035

发表时间：2020

DOI：10.7498/aps.68.20181682

发表时间：2019

刘杰的其他基金

批准号：51009083

批准年份：2010

资助金额：20.00

项目类别：青年科学基金项目

批准号：81501314

批准年份：2015

资助金额：18.00

项目类别：青年科学基金项目

批准号：21171070

批准年份：2011

资助金额：60.00

项目类别：面上项目

批准号：20871056

批准年份：2008

资助金额：33.00

项目类别：面上项目

批准号：51406007

批准年份：2014

资助金额：26.00

项目类别：青年科学基金项目

批准号：11475027

批准年份：2014

资助金额：90.00

项目类别：面上项目

批准号：10775161

批准年份：2007

资助金额：38.00

项目类别：面上项目

批准号：50308015

批准年份：2003

资助金额：18.00

项目类别：青年科学基金项目

批准号：61078032

批准年份：2010

资助金额：36.00

项目类别：面上项目

批准号：41706065

批准年份：2017

资助金额：25.00

项目类别：青年科学基金项目

批准号：21803065

批准年份：2018

资助金额：27.00

项目类别：青年科学基金项目

批准号：11775030

批准年份：2017

资助金额：66.00

项目类别：面上项目

批准号：30770959

批准年份：2007

资助金额：30.00

项目类别：面上项目

批准号：51905422

批准年份：2019

资助金额：25.00

项目类别：青年科学基金项目

批准号：21406051

批准年份：2014

资助金额：25.00

项目类别：青年科学基金项目

批准号：51373171

批准年份：2013

资助金额：82.00

项目类别：面上项目

批准号：41571059

批准年份：2015

资助金额：70.00

项目类别：面上项目

批准号：60970033

批准年份：2009

资助金额：31.00

项目类别：面上项目

批准号：51804110

批准年份：2018

资助金额：21.00

项目类别：青年科学基金项目

批准号：60970112

批准年份：2009

资助金额：29.00

项目类别：面上项目

批准号：71903030

批准年份：2019

资助金额：19.00

项目类别：青年科学基金项目

批准号：61371194

批准年份：2013

资助金额：82.00

项目类别：面上项目

批准号：81903181

批准年份：2019

资助金额：21.50

项目类别：青年科学基金项目

批准号：31040071

批准年份：2010

资助金额：10.00

项目类别：专项基金项目

批准号：10474008

批准年份：2004

资助金额：26.00

项目类别：面上项目

批准号：30570835

批准年份：2005

资助金额：25.00

项目类别：面上项目

批准号：31770367

批准年份：2017

资助金额：60.00

项目类别：面上项目

批准号：11626087

批准年份：2016

资助金额：3.00

项目类别：数学天元基金项目

批准号：31572236

批准年份：2015

资助金额：65.00

项目类别：面上项目

批准号：31501297

批准年份：2015

资助金额：20.00

项目类别：青年科学基金项目

批准号：31901549

批准年份：2019

资助金额：25.00

项目类别：青年科学基金项目

批准号：81502320

批准年份：2015

资助金额：18.00

项目类别：青年科学基金项目

批准号：91129702

批准年份：2011

资助金额：60.00

项目类别：重大研究计划

批准号：51305276

批准年份：2013

资助金额：25.00

项目类别：青年科学基金项目

批准号：31600155

批准年份：2016

资助金额：20.00

项目类别：青年科学基金项目

批准号：11902085

批准年份：2019

资助金额：20.00

项目类别：青年科学基金项目

批准号：81671551

批准年份：2016

资助金额：60.00

项目类别：面上项目

批准号：51204035

批准年份：2012

资助金额：25.00

项目类别：青年科学基金项目

批准号：21877051

批准年份：2018

资助金额：67.00

项目类别：面上项目

批准号：81630016

批准年份：2016

资助金额：275.00

项目类别：重点项目

批准号：60673150

批准年份：2006

资助金额：27.00

项目类别：面上项目

批准号：31501145

批准年份：2015

资助金额：20.00

项目类别：青年科学基金项目

批准号：81571836

批准年份：2015

资助金额：56.00

项目类别：面上项目

批准号：40701173

批准年份：2007

资助金额：20.00

项目类别：青年科学基金项目

批准号：31371159

批准年份：2013

资助金额：86.00

项目类别：面上项目

批准号：50578169

批准年份：2005

资助金额：26.00

项目类别：面上项目

批准号：61404170

批准年份：2014

资助金额：29.00

项目类别：青年科学基金项目

批准号：41471270

批准年份：2014

资助金额：86.00

项目类别：面上项目

批准号：81571685

批准年份：2015

资助金额：56.00

项目类别：面上项目

批准号：21402219

批准年份：2014

资助金额：25.00

项目类别：青年科学基金项目

批准号：51674066

批准年份：2016

资助金额：60.00

项目类别：面上项目

批准号：50273002

批准年份：2002

资助金额：22.00

项目类别：面上项目

批准号：30371585

批准年份：2003

资助金额：20.00

项目类别：面上项目

批准号：21606248

批准年份：2016

资助金额：20.00

项目类别：青年科学基金项目

批准号：51103154

批准年份：2011

资助金额：25.00

项目类别：青年科学基金项目

批准号：39970926

批准年份：1999

资助金额：11.00

项目类别：面上项目

批准号：50878084

批准年份：2008

资助金额：32.00

项目类别：面上项目

批准号：11202076

批准年份：2012

资助金额：26.00

项目类别：青年科学基金项目

批准号：31171096

批准年份：2011

资助金额：65.00

项目类别：面上项目

批准号：31772420

批准年份：2017

资助金额：62.00

项目类别：面上项目

批准号：11574245

批准年份：2015

资助金额：62.00

项目类别：面上项目

批准号：11179003

批准年份：2011

资助金额：240.00

项目类别：联合基金项目

批准号：51579138

批准年份：2015

资助金额：63.00

项目类别：面上项目

批准号：50903067

批准年份：2009

资助金额：20.00

项目类别：青年科学基金项目

批准号：61105049

批准年份：2011

资助金额：24.00

项目类别：青年科学基金项目

批准号：21901081

批准年份：2019

资助金额：24.00

项目类别：青年科学基金项目

批准号：19674011

批准年份：1996

资助金额：9.00

项目类别：面上项目

批准号：41001186

批准年份：2010

资助金额：20.00

项目类别：青年科学基金项目

批准号：61672361

批准年份：2016

资助金额：63.00

项目类别：面上项目

批准号：50673011

批准年份：2006

资助金额：31.00

项目类别：面上项目

批准号：81703074

批准年份：2017

资助金额：20.00

项目类别：青年科学基金项目

批准号：51606102

批准年份：2016

资助金额：20.00

项目类别：青年科学基金项目

批准号：11803041

批准年份：2018

资助金额：26.00

项目类别：青年科学基金项目

批准号：41867022

批准年份：2018

资助金额：40.00

项目类别：地区科学基金项目

批准号：30970777

批准年份：2009

资助金额：30.00

项目类别：面上项目

批准号：20471070

批准年份：2004

资助金额：22.00

项目类别：面上项目

批准号：21706036

批准年份：2017

资助金额：27.00

项目类别：青年科学基金项目

批准号：30471410

批准年份：2004

资助金额：8.00

项目类别：面上项目

批准号：39200111

批准年份：1992

资助金额：5.00

项目类别：青年科学基金项目

批准号：91021021

批准年份：2010

资助金额：55.00

项目类别：重大研究计划

批准号：31272268

批准年份：2012

资助金额：78.00

项目类别：面上项目

批准号：51478259

批准年份：2014

资助金额：78.00

项目类别：面上项目

批准号：50775029

批准年份：2007

资助金额：32.00

项目类别：面上项目

批准号：11274051

批准年份：2012

资助金额：88.00

项目类别：面上项目

批准号：51073011

批准年份：2010

资助金额：38.00

项目类别：面上项目

批准号：51504140

批准年份：2015

资助金额：21.00

项目类别：青年科学基金项目

批准号：10975164

批准年份：2009

资助金额：43.00

项目类别：面上项目

批准号：51773231

批准年份：2017

资助金额：61.00

项目类别：面上项目

批准号：11675233

批准年份：2016

资助金额：80.00

项目类别：面上项目

批准号：39980041

批准年份：1999

资助金额：13.00

项目类别：专项基金项目

批准号：11572115

批准年份：2015

资助金额：60.00

项目类别：面上项目

批准号：81501989

批准年份：2015

资助金额：18.00

项目类别：青年科学基金项目

批准号：11101394

批准年份：2011

资助金额：23.00

项目类别：青年科学基金项目

批准号：21371075

批准年份：2013

资助金额：80.00

项目类别：面上项目

批准号：31000078

批准年份：2010

资助金额：20.00

项目类别：青年科学基金项目

批准号：39970190

批准年份：1999

资助金额：14.00

项目类别：面上项目

批准号：21573108

批准年份：2015

资助金额：66.00

项目类别：面上项目

批准号：61804049

批准年份：2018

资助金额：24.00

项目类别：青年科学基金项目

批准号：51078140

批准年份：2010

资助金额：40.00

项目类别：面上项目

100

批准号：61573011

批准年份：2015

资助金额：48.00

项目类别：面上项目

101

批准号：51508564

批准年份：2015

资助金额：23.00

项目类别：青年科学基金项目

102

批准号：31671179

批准年份：2016

资助金额：61.00

项目类别：面上项目

103

批准号：10375079

批准年份：2003

资助金额：36.00

项目类别：面上项目

104

批准号：50172004

批准年份：2001

资助金额：25.00

项目类别：联合基金项目

105

批准号：41402276

批准年份：2014

资助金额：25.00

项目类别：青年科学基金项目

106

批准号：30570418

批准年份：2005

资助金额：27.00

项目类别：面上项目

107

批准号：41271032

批准年份：2012

资助金额：70.00

项目类别：面上项目

108

批准号：30340058

批准年份：2003

资助金额：9.00

项目类别：专项基金项目

109

批准号：31200182

批准年份：2012

资助金额：22.00

项目类别：青年科学基金项目

110

批准号：41163003

批准年份：2011

资助金额：49.00

项目类别：地区科学基金项目

111

批准号：21872069

批准年份：2018

资助金额：64.00

项目类别：面上项目

112

批准号：61475089

批准年份：2014

资助金额：80.00

项目类别：面上项目

113

批准号：51103183

批准年份：2011

资助金额：25.00

项目类别：青年科学基金项目

114

批准号：51801134

批准年份：2018

资助金额：27.00

项目类别：青年科学基金项目

115

批准号：U1633103

批准年份：2016

资助金额：36.00

项目类别：联合基金项目

116

批准号：71771201

批准年份：2017

资助金额：48.00

项目类别：面上项目

117

批准号：30973122

批准年份：2009

资助金额：38.00

项目类别：面上项目

118

批准号：40802053

批准年份：2008

资助金额：20.00

项目类别：青年科学基金项目

相似国自然基金

面向高性能云平台的并行程序优化关键技术研究

批准号：61472201

批准年份：2014

负责人：翟季冬

学科分类：F0204

资助金额：84.00

项目类别：面上项目

并行、多平台“云测试”的关键技术研究

批准号：61379045

批准年份：2013

负责人：张震宇

学科分类：F0203

资助金额：73.00

项目类别：面上项目

基于数据流分析的顺序程序并行转换智能化方法的研究

批准号：69103307

批准年份：1991

负责人：鄢勇

学科分类：F0204

资助金额：3.50

项目类别：青年科学基金项目

GPU并行程序自动优化方法研究

批准号：61562070

批准年份：2015

负责人：蔺勇

学科分类：F0204

资助金额：22.00

项目类别：地区科学基金项目

云平台并行数据流程序的中间数据管理优化技术

{{i.achievement_title}}

暂无此项成果

其他相关文献

一种基于多层设计空间缩减策略的近似高维优化方法

智能煤矿建设路线与工程实践

药食兼用真菌蛹虫草的液体发酵培养条件优化

现代优化理论与应用

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

刘杰的其他基金

强震与溶液浸泡次序作用下钙质胶结砂岩力学响应试验研究

GAPDS在糖尿病引起的不育症中的作用及分子机制研究

基于单细胞成像研究钌配合物作为识别肿瘤细胞的荧光探针和对凋亡信号通路的影响

钌配合物在肺癌细胞中调控p53表达及对Survivin通路的影响

柴油微引燃混合气复合燃烧特性研究

人造规范势下超冷原子的量子模拟

极端条件下高能重离子与材料相互作用的微观机理研究

中国南方古代木作建筑技术源流研究

基于掺镱（铥）硅酸钪晶体的超短脉冲激光特性研究

基于地震勘探资料的南海北部陆坡区土力学性质反演及边坡稳定性评价

非绝热动力学模拟方法发展及应用

激光驱动球形汇聚等离子体动力学研究

乙肝病毒X蛋白通过Notch信号致癌新通路的研究

瞬态冲击下炮管-摇架间隙动态效应及射击密集度评估

基于两相流的膜吸收法海水烟气脱硫强化集成及机理研究

非负载型过渡金属氧化物催化剂与氯调控混合聚烯烃降解生成纳米碳材料的反应机理研究

中国西南纵向岭谷区植物遗传格局成因及其维持机制

面向混合体系结构的先进并行算法研究

滚刀作用下双向应力岩体表面裂纹演变及破岩机理

无线传感器网络中基于时间序列相关性的低能耗数据获取方法研究

股票市场操纵、定价效率与投资者福利：影响评估及监管路径

语义Web中典型不确定知识的本体表示和融合的理论与方法研究

βAR信号通路影响免疫治疗中肿瘤细胞和T细胞代谢竞争的机制研究

中国巨蟹蛛科（蛛形纲：蜘蛛目）的分类学研究

玻色-爱因斯坦凝聚体系的非线性动力学及其波戈留波夫激发

乙肝病毒X 蛋白—新基因URG11—Beta-连接蛋白新致癌通路的研究。

西南山地及毗邻区特有经济树种泡核桃种质资源格局动因及栽培起源

两类带导数的非线性Schrodinger方程拟周期解的存在性

世界拟遁蛛属系统发育与分子系统地理学研究（蜘蛛目：巨蟹蛛科）

中介体亚基TaMed25调控小麦白粉病抗性的分子机理研究

玉米粒型和粒重基因ZmKWL7的功能研究

家族性甲状腺非髓样癌候选致病基因研究

NF-kB-URG7-β-catenin信号通路在乙肝相关性非可控性炎症恶性转化中的价值研究

兆瓦级风电机组整机非线性振动机理及传递规律研究

复苏植物牛耳草DnaJ蛋白参与水分胁迫下叶绿体保护的作用机理

强非线性超弹折纸结构功能化需求的拓扑优化方法研究

呼吸道合胞病毒对调节性CD4 T淋巴细胞的影响机理的研究

微细粒锡石的表面性质及其对可浮性影响机理研究

微泡及超声介导BBB开放递送纳米硒/硫及其载药 抑制阿尔兹海默病的研究

谷氨酰胺代谢感受器在肠粘膜损伤修复中的价值研究

新型体系结构上多群粒子输运问题的可扩展并行计算

Nur77调控整合素α3β1信号的机制及其在肿瘤转移中的功能研究

全无网格激发荧光断层成像方法研究

纵向岭谷区公路建设的生态影响阈及其调控方略研究

MG53调节心脏辅助亚基KChIP2表达的分子机制及其在心脏电稳态调节中的作用

锥形刚性摩擦桩复合地基承载性状及沉降特性研究

脉冲流量PECVD瞬态生长机理研究

青葙属植物锰富集性状差异及其与SRAP标记的关联分析

脑白质疏松与后循环缺血及脑血管功能的相关性研究

具有近红外吸收和发射的共轭聚合物的设计、合成及其在纳米治疗诊断中的应用

新型锡石螯合捕收剂及伴生矿物抑制剂分子结构设计及作用机理研究

生物炭纤维及微生物膜的形成机制与特性

一个可能与肿瘤恶性增生及转移相关的新基因的功能研究

气泡表面油膜萃取极低浓度金属离子新方法的机理研究

供氢溶剂与催化剂组合促进碳纤维增强胺固化环氧树脂复合材料分解的机理研究

针灸对截瘫大鼠脊髓结构、神经肽和NFs影响的研究

路堤荷载下混合桩-网复合地基承载机理与设计方法研究

基于混合度量的不确定性结构动态载荷识别的理论与算法研究

KCNE2调节心脏L-型钙通道的分子机制及生理和病理意义

基于形态、行为和分子数据的球蛛科（蛛形纲：蜘蛛目）系统发育学研究

拓扑超导体新奇输运特性研究

地面模拟空间辐射环境下的技术方法及单粒子效应研究

基于高地应力下片岩隧洞变形破坏机理的非对称支护理论及胎式钢拱架技术研究

荧光碳纳米粒子的制备、表面修饰和新型荧光生物探针的初步探索

基于深度学习的结构化预测模型研究

籍电化学手段实现的过渡金属催化瞬态导向C−H键活化官能化反应

强激光场中原子与等离子体及其非线性问题

超富集植物同源多倍体诱导及其修复性能研究

面向关联数据的信息检索关键技术研究

以聚丙烯腈电纺法制备新型纳米碳纤维的关联性研究

微泡及超声介导BBB开放递送纳米硒/硫及其载药抑制阿尔兹海默病的研究