云计算环境下大数据本地化技术研究

基本信息
批准号:61370080
项目类别:面上项目
资助金额:75.00
负责人:王晓阳
学科分类:
依托单位:复旦大学
批准年份:2013
结题年份:2017
起止时间:2014-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:杨珉,何贤芒,陈小瑞,顾俊,彭姝,江雪,侯俊杰
关键词:
数据库数据本地化云计算大数据
结项摘要

Cloud computing research has gained worldwide attention in this big data era, and a lot of progress has been made. The main research themes have been in the data management architecture and key processing algorithms and technologies in the cloud computing environment. Little attention, however, has been on the impact of the distribution of data over compute nodes in terms of the execution efficiency of the parallel algorithms. The current common practice is simply to assign the data by HASH function to distribute data evenly to each node. It's been noted that data distribution has a significant impact on the efficiency of the algorithms. With the above observation, the project is to study the issues of data localization, that is, to study methods that will put data physically where the algorithm likely need to access. In this way, the algorithm reads the data that are likely stored locally at the execution time, cutting down the migration of data between compute nodes, thereby reducing the communication cost and improving the efficiency of the the algorithm. This project will systematically study the localization technology in the cloud computing framework, to distribute data (with graph data and matrix data as the main target data types) by a distribution engine in a optimized way with a very low cost.

大数据的时代已经到来,云计算研究得到国内外的研究者广泛关注,目前在云计算环境下大数据研究的主要成果是在管理架构和处理算法、大数据处理的关键技术等领域。关于数据在各个节点的分布对并行算法的执行效率问题则研究得比较少。目前主要注重点在计算的平衡,而数据本身分布方面的工作较为简单,通常是将数据通过HASH函数均匀地分到各个节点。但是不恰当的数据分布对算法执行的效率有着重要的影响。有鉴于此,本项目提出了数据本地化问题。所谓的数据本地化,是要算法与数据的分布密切结合: 对于存储在文件系统的数据,使得算法执行的时候尽量去读取本地的数据,减少数据在计算节点间的迁移, 从而降低节点间的通信代价,提高算法的执行效率。本项目系统地研究在云计算框架下数据的本地化技术,以图数据和矩阵作为主要的大数据研究对象,通过数据分布功能引擎,以较小的代价实现数据优化分布。

项目摘要

大数据的时代已经到来,云计算研究得到国内外的研究者广泛关注,目前在云计算环境下大数据研究的主要成果是在管理架构和处理算法、大数据处理的关键技术等领域。本项目系统地研究在云计算框架下数据的本地化技术,以文本数据和矩阵作为主要的大数据研究对象,通过数据分布功能引擎,以较小的代价实现数据优化分布。本项目的主要思路是:算法与数据的分布密切结合: 对于存储在文件系统的数据,使得算法执行的时候尽量去读取本地的数据,减少数据在计算节点间的迁移, 从而降低节点间的通信代价,提高算法的执行效率。项目资助下所产生的研究成果将引起重视。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

"多对多"模式下GEO卫星在轨加注任务规划

"多对多"模式下GEO卫星在轨加注任务规划

DOI:10.19328/j.cnki.2096-8655.2022.02.002
发表时间:2022
2

智能煤矿建设路线与工程实践

智能煤矿建设路线与工程实践

DOI:10.13199/j.cnki.cst.2020.07.010
发表时间:2020
3

强震过程滑带超间隙水压力效应研究:大光包滑坡启动机制

强震过程滑带超间隙水压力效应研究:大光包滑坡启动机制

DOI:
发表时间:2020
4

铁路大跨度简支钢桁梁桥车-桥耦合振动研究

铁路大跨度简支钢桁梁桥车-桥耦合振动研究

DOI:10.3969/j.issn.1000-0844.2017.05.0820
发表时间:2017
5

重大生物事件与化石能源形成演化--兼论地球系统框架下能源学发展

重大生物事件与化石能源形成演化--兼论地球系统框架下能源学发展

DOI:10.11698/PED.2021.03.06
发表时间:2021

王晓阳的其他基金

批准号:81500528
批准年份:2015
资助金额:18.00
项目类别:青年科学基金项目
批准号:31701495
批准年份:2017
资助金额:20.00
项目类别:青年科学基金项目
批准号:61732004
批准年份:2017
资助金额:270.00
项目类别:重点项目

相似国自然基金

1

云计算环境下应用数据层节能计算研究

批准号:61262088
批准年份:2012
负责人:于炯
学科分类:F0207
资助金额:51.00
项目类别:地区科学基金项目
2

云计算环境下数据安全基础问题研究

批准号:61133014
批准年份:2011
负责人:陈克非
学科分类:F0206
资助金额:270.00
项目类别:重点项目
3

云计算环境下大GML空间数据并行存取与处理关键问题

批准号:41561085
批准年份:2015
负责人:兰小机
学科分类:D0114
资助金额:43.00
项目类别:地区科学基金项目
4

云计算环境中加密数据访问控制技术研究

批准号:61702548
批准年份:2017
负责人:高海英
学科分类:F0205
资助金额:23.00
项目类别:青年科学基金项目