Map/Reduce is on the cutting edge of the massive data processing framework in large-scale data centers. Reducing the I/O performance overhead in the massive data processing is essential to achieve the better execution efficiency of Map/Reduce applications, and hence, the higher quality of service of data centers. In-memory data caching is one of the popular technologies to improve data access rate via reducing the disk I/O in data centers. However, on applied to the Map/Reduce-styled framework, the existing in-memory data caching technology cannot accommodate to the framework's new features including that massive data distributed among computing nodes and computation followed with the data locality. Aiming on this issue, we focus on the research of the adaption and extension of the in-memory data caching technology to the Map/Reduce-styled framework, which is, to our best knowledge, the original work in the field of Map/Reduce framework research. The main research topics include the two-leveled data access characteristic analysis, the data perfecting and replacement, the recovery-cost-oriented data placement and the data caching-aware task scheduling, which constitute an integrated solution for the in-memory data caching in Map/Reduce framework. Along with the in-depth research, a prototype system of Map/Reduce data caching management will be developed and tested to verify and optimize the proposed strategies and mechanisms.
Map/Reduce数据处理平台是数据中心海量数据处理领域的最新技术进展。降低应用运行时海量数据读取开销,提高应用执行效率,是确保Map/Reduce平台服务质量的关键。内存级数据缓存技术是数据中心提升数据访问效率的一类典型技术。然而,既有的数据缓存研究成果难以适应Map/Reduce平台数据基于计算节点分布存储以及数据本地化处理的新特征,而针对Map/Reduce平台的数据缓存研究尚属空白。本项目拟发展面向Map/Reduce数据处理平台的内存级数据缓存技术;以提升应用执行效率为目标,针对Map/Reduce平台新的数据存储与处理模式,着重对数据访问特征分析方法、数据预取与替换、数据重放置以及缓存感知的Map/Reduce任务调度等关键技术展开研究,并通过原型系统对研究成果进行分析和验证,为在Map/Reduce平台引入内存级数据缓存提供切实可行的理论基础和技术方案。
本项目的研究目标是发展面向Map/Reduce型数据处理平台的内存级数据缓存技术。本项目对研究计划中确定的关键技术均开展了研究。针对Map/Reduce 平台新的数据存储与处理模式,本项目共取得四个有代表性的研究成果。. 本项目对大数据应用负载的数据访问和系统行为特征进行了系统的量化分析,通过分析发现了大数据负载普遍计算密度较低,是具有更多分支指令的数据移动为主的计算;通过量化分析软件栈对大数据系统行为的影响,发现基于Hadoop的Map/Reduce应用比传统计算负载具有更大的指令足迹,并得出大规模数据移动速度对于大数据应用性能具有重要影响的结论,从而验证了Map/Reduce平台引入内存级数据缓存的必要性。. 本项目提出综合考虑缓存数据本地化访问比例、数据所在节点的计算负载以及数据访问热度的缓存数据替换策略,在保证缓存命中的前提下,通过提升缓存数据的本地化处理几率,切实提升Map/Reduce平台应用的执行效率。该研究成果可将Map/Reduce作业平均周转时间最大减少19.4%。. 本项目提出Map/Reduce平台基于预测的动态内存管理技术,通过在线拟合的方法预测Map/Reduce任务内存使用量;并提出了基于任务运行时间、任务进度和作业进度比较的任务资源抢占策略,以保证运行任务的性能和资源再分配的公平性。该研究成果可将Map/Reduce作业平均周转时间最大减少57.1%。. 本项目提出Reduce任务可抢占式作业调度方法。该方法通过定义Reduce任务资源抢占-回收模型和抢占感知的任务调度策略,有效利用Reduce任务空闲等待期间占用的计算资源,提升作业执行效率。该研究成果可将作业平均周转时间最大减少49.85%。. 本项目共计发表EI/SCI索引学术论文6篇,申请国内发明专利4项,并培养1名博士和3名硕士,完成了项目的预期成果目标。其中,一篇论文在计算机体系结构领域CCF A类会议HPCA发表,相关成果已在知名大数据企业中进行应用推广。项目研究成果对于提升数据中心大数据服务质量具有较好的理论意义和实用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
硬件木马:关键问题研究进展及新动向
面向云工作流安全的任务调度方法
基于细粒度词表示的命名实体识别研究
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
内存集群环境下的实时数据处理
大数据处理平台中外存算法能耗复杂度和能耗优化研究
基于三维堆叠NVM-DRAM混合介质的内存大数据处理体系结构关键技术研究
近数据处理的非易失内存控制器架构和关键技术