Map/Reduce数据处理平台中内存级数据缓存技术研究

基本信息

批准号：61202075

项目类别：青年科学基金项目

资助金额：23.00

负责人：梁毅

学科分类：

依托单位：北京工业大学

批准年份：2012

结题年份：2015

起止时间：2013-01-01 - 2015-12-31

项目状态：已结题

项目参与者：王磊,蒋海华,陈锬,刘建丽,王汀,刘厚贵,李光瑞,王玉凤

关键词：

任务调度内存级数据缓存MapReduce数据预取与替换

结项摘要

Map/Reduce is on the cutting edge of the massive data processing framework in large-scale data centers. Reducing the I/O performance overhead in the massive data processing is essential to achieve the better execution efficiency of Map/Reduce applications, and hence, the higher quality of service of data centers. In-memory data caching is one of the popular technologies to improve data access rate via reducing the disk I/O in data centers. However, on applied to the Map/Reduce-styled framework, the existing in-memory data caching technology cannot accommodate to the framework's new features including that massive data distributed among computing nodes and computation followed with the data locality. Aiming on this issue, we focus on the research of the adaption and extension of the in-memory data caching technology to the Map/Reduce-styled framework, which is, to our best knowledge, the original work in the field of Map/Reduce framework research. The main research topics include the two-leveled data access characteristic analysis, the data perfecting and replacement, the recovery-cost-oriented data placement and the data caching-aware task scheduling, which constitute an integrated solution for the in-memory data caching in Map/Reduce framework. Along with the in-depth research, a prototype system of Map/Reduce data caching management will be developed and tested to verify and optimize the proposed strategies and mechanisms.

Map/Reduce数据处理平台是数据中心海量数据处理领域的最新技术进展。降低应用运行时海量数据读取开销，提高应用执行效率，是确保Map/Reduce平台服务质量的关键。内存级数据缓存技术是数据中心提升数据访问效率的一类典型技术。然而，既有的数据缓存研究成果难以适应Map/Reduce平台数据基于计算节点分布存储以及数据本地化处理的新特征，而针对Map/Reduce平台的数据缓存研究尚属空白。本项目拟发展面向Map/Reduce数据处理平台的内存级数据缓存技术；以提升应用执行效率为目标，针对Map/Reduce平台新的数据存储与处理模式，着重对数据访问特征分析方法、数据预取与替换、数据重放置以及缓存感知的Map/Reduce任务调度等关键技术展开研究，并通过原型系统对研究成果进行分析和验证，为在Map/Reduce平台引入内存级数据缓存提供切实可行的理论基础和技术方案。

项目摘要

本项目的研究目标是发展面向Map/Reduce型数据处理平台的内存级数据缓存技术。本项目对研究计划中确定的关键技术均开展了研究。针对Map/Reduce 平台新的数据存储与处理模式，本项目共取得四个有代表性的研究成果。. 本项目对大数据应用负载的数据访问和系统行为特征进行了系统的量化分析，通过分析发现了大数据负载普遍计算密度较低,是具有更多分支指令的数据移动为主的计算；通过量化分析软件栈对大数据系统行为的影响，发现基于Hadoop的Map/Reduce应用比传统计算负载具有更大的指令足迹，并得出大规模数据移动速度对于大数据应用性能具有重要影响的结论，从而验证了Map/Reduce平台引入内存级数据缓存的必要性。. 本项目提出综合考虑缓存数据本地化访问比例、数据所在节点的计算负载以及数据访问热度的缓存数据替换策略，在保证缓存命中的前提下，通过提升缓存数据的本地化处理几率，切实提升Map/Reduce平台应用的执行效率。该研究成果可将Map/Reduce作业平均周转时间最大减少19.4%。. 本项目提出Map/Reduce平台基于预测的动态内存管理技术，通过在线拟合的方法预测Map/Reduce任务内存使用量；并提出了基于任务运行时间、任务进度和作业进度比较的任务资源抢占策略，以保证运行任务的性能和资源再分配的公平性。该研究成果可将Map/Reduce作业平均周转时间最大减少57.1%。. 本项目提出Reduce任务可抢占式作业调度方法。该方法通过定义Reduce任务资源抢占-回收模型和抢占感知的任务调度策略，有效利用Reduce任务空闲等待期间占用的计算资源，提升作业执行效率。该研究成果可将作业平均周转时间最大减少49.85%。. 本项目共计发表EI/SCI索引学术论文6篇，申请国内发明专利4项，并培养1名博士和3名硕士，完成了项目的预期成果目标。其中，一篇论文在计算机体系结构领域CCF A类会议HPCA发表，相关成果已在知名大数据企业中进行应用推广。项目研究成果对于提升数据中心大数据服务质量具有较好的理论意义和实用价值。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2017

DOI：

发表时间：2018

DOI：10.7544/issn1000-1239.2018.20170425

发表时间：2018

DOI：10.3969/j.issn.1003-0077.2018.11.009

发表时间：2018

DOI：10.12202/j.0476-0301.2020285

发表时间：2021

梁毅的其他基金

批准号：69377001

批准年份：1993

资助金额：7.50

项目类别：面上项目

批准号：31170744

批准年份：2011

资助金额：65.00

项目类别：面上项目

批准号：31770833

批准年份：2017

资助金额：60.00

项目类别：面上项目

批准号：30370309

批准年份：2003

资助金额：21.00

项目类别：面上项目

批准号：31570779

批准年份：2015

资助金额：65.00

项目类别：面上项目

批准号：30770421

批准年份：2007

资助金额：35.00

项目类别：面上项目

批准号：31370774

批准年份：2013

资助金额：85.00

项目类别：面上项目

批准号：30970599

批准年份：2009

资助金额：35.00

项目类别：面上项目

批准号：11604058

批准年份：2016

资助金额：21.00

项目类别：青年科学基金项目

批准号：90408012

批准年份：2004

资助金额：35.00

项目类别：重大研究计划

批准号：61101245

批准年份：2011

资助金额：28.00

项目类别：青年科学基金项目

批准号：39970164

批准年份：1999

资助金额：12.00

项目类别：面上项目

相似国自然基金

内存集群环境下的实时数据处理

批准号：61672233

批准年份：2016

负责人：周敏奇

学科分类：F0202

资助金额：63.00

项目类别：面上项目

大数据处理平台中外存算法能耗复杂度和能耗优化研究

批准号：61672143

批准年份：2016

负责人：宋杰

学科分类：F0202

资助金额：63.00

项目类别：面上项目

基于三维堆叠NVM-DRAM混合介质的内存大数据处理体系结构关键技术研究

批准号：61672511

批准年份：2016

负责人：喻之斌

学科分类：F0204

资助金额：63.00

项目类别：面上项目

近数据处理的非易失内存控制器架构和关键技术

批准号：61772222

批准年份：2017

负责人：冯丹

学科分类：F0204

资助金额：63.00

项目类别：面上项目

Map/Reduce数据处理平台中内存级数据缓存技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

论大数据环境对情报学发展的影响

硬件木马:关键问题研究进展及新动向

面向云工作流安全的任务调度方法

基于细粒度词表示的命名实体识别研究

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

梁毅的其他基金

极化交叉保偏光纤环形腔陀螺及椭圆芯保偏光纤的研制

锌离子对人Tau蛋白致病结构形成的调控

病理过氧化氢对超氧化物歧化酶致病结构形成的调控

大分子拥挤环境中蛋白质相互作用的机制

人Tau蛋白纤维结构传递的机制研究

大分子拥挤环境中溶菌酶错误折叠与聚集的机制

翻译后修饰对人朊蛋白致病结构形成的调控

模拟生理环境中朊蛋白错误折叠与聚集的机制

部分空间相干自加速光束的传播特性及其在信号传输中的应用研究

钙调蛋白与靶蛋白相互作用及调控机制的信息基础

基于参数化电磁散射模型的SAR目标成像技术

单抗探针探测蛋白质折叠机制的微量热研究

相似国自然基金