云计算环境下大数据本地化技术研究

基本信息
批准号:61370080
项目类别:面上项目
资助金额:75.00
负责人:王晓阳
学科分类:
依托单位:复旦大学
批准年份:2013
结题年份:2017
起止时间:2014-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:杨珉,何贤芒,陈小瑞,顾俊,彭姝,江雪,侯俊杰
关键词:
数据库数据本地化云计算大数据
结项摘要

Cloud computing research has gained worldwide attention in this big data era, and a lot of progress has been made. The main research themes have been in the data management architecture and key processing algorithms and technologies in the cloud computing environment. Little attention, however, has been on the impact of the distribution of data over compute nodes in terms of the execution efficiency of the parallel algorithms. The current common practice is simply to assign the data by HASH function to distribute data evenly to each node. It's been noted that data distribution has a significant impact on the efficiency of the algorithms. With the above observation, the project is to study the issues of data localization, that is, to study methods that will put data physically where the algorithm likely need to access. In this way, the algorithm reads the data that are likely stored locally at the execution time, cutting down the migration of data between compute nodes, thereby reducing the communication cost and improving the efficiency of the the algorithm. This project will systematically study the localization technology in the cloud computing framework, to distribute data (with graph data and matrix data as the main target data types) by a distribution engine in a optimized way with a very low cost.

大数据的时代已经到来,云计算研究得到国内外的研究者广泛关注,目前在云计算环境下大数据研究的主要成果是在管理架构和处理算法、大数据处理的关键技术等领域。关于数据在各个节点的分布对并行算法的执行效率问题则研究得比较少。目前主要注重点在计算的平衡,而数据本身分布方面的工作较为简单,通常是将数据通过HASH函数均匀地分到各个节点。但是不恰当的数据分布对算法执行的效率有着重要的影响。有鉴于此,本项目提出了数据本地化问题。所谓的数据本地化,是要算法与数据的分布密切结合: 对于存储在文件系统的数据,使得算法执行的时候尽量去读取本地的数据,减少数据在计算节点间的迁移, 从而降低节点间的通信代价,提高算法的执行效率。本项目系统地研究在云计算框架下数据的本地化技术,以图数据和矩阵作为主要的大数据研究对象,通过数据分布功能引擎,以较小的代价实现数据优化分布。

项目摘要

大数据的时代已经到来,云计算研究得到国内外的研究者广泛关注,目前在云计算环境下大数据研究的主要成果是在管理架构和处理算法、大数据处理的关键技术等领域。本项目系统地研究在云计算框架下数据的本地化技术,以文本数据和矩阵作为主要的大数据研究对象,通过数据分布功能引擎,以较小的代价实现数据优化分布。本项目的主要思路是:算法与数据的分布密切结合: 对于存储在文件系统的数据,使得算法执行的时候尽量去读取本地的数据,减少数据在计算节点间的迁移, 从而降低节点间的通信代价,提高算法的执行效率。项目资助下所产生的研究成果将引起重视。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

DOI:10.3969/j.issn.1674-0858.2020.04.30
发表时间:2020
3

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021
4

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021
5

瞬态波位移场计算方法在相控阵声场模拟中的实验验证

瞬态波位移场计算方法在相控阵声场模拟中的实验验证

DOI:
发表时间:2020

王晓阳的其他基金

批准号:81500528
批准年份:2015
资助金额:18.00
项目类别:青年科学基金项目
批准号:31701495
批准年份:2017
资助金额:20.00
项目类别:青年科学基金项目
批准号:61732004
批准年份:2017
资助金额:270.00
项目类别:重点项目

相似国自然基金

1

云计算环境下应用数据层节能计算研究

批准号:61262088
批准年份:2012
负责人:于炯
学科分类:F0207
资助金额:51.00
项目类别:地区科学基金项目
2

云计算环境下数据安全基础问题研究

批准号:61133014
批准年份:2011
负责人:陈克非
学科分类:F0206
资助金额:270.00
项目类别:重点项目
3

云计算环境下大GML空间数据并行存取与处理关键问题

批准号:41561085
批准年份:2015
负责人:兰小机
学科分类:D0114
资助金额:43.00
项目类别:地区科学基金项目
4

云计算环境中加密数据访问控制技术研究

批准号:61702548
批准年份:2017
负责人:高海英
学科分类:F0205
资助金额:23.00
项目类别:青年科学基金项目