Cloud computing research has gained worldwide attention in this big data era, and a lot of progress has been made. The main research themes have been in the data management architecture and key processing algorithms and technologies in the cloud computing environment. Little attention, however, has been on the impact of the distribution of data over compute nodes in terms of the execution efficiency of the parallel algorithms. The current common practice is simply to assign the data by HASH function to distribute data evenly to each node. It's been noted that data distribution has a significant impact on the efficiency of the algorithms. With the above observation, the project is to study the issues of data localization, that is, to study methods that will put data physically where the algorithm likely need to access. In this way, the algorithm reads the data that are likely stored locally at the execution time, cutting down the migration of data between compute nodes, thereby reducing the communication cost and improving the efficiency of the the algorithm. This project will systematically study the localization technology in the cloud computing framework, to distribute data (with graph data and matrix data as the main target data types) by a distribution engine in a optimized way with a very low cost.
大数据的时代已经到来,云计算研究得到国内外的研究者广泛关注,目前在云计算环境下大数据研究的主要成果是在管理架构和处理算法、大数据处理的关键技术等领域。关于数据在各个节点的分布对并行算法的执行效率问题则研究得比较少。目前主要注重点在计算的平衡,而数据本身分布方面的工作较为简单,通常是将数据通过HASH函数均匀地分到各个节点。但是不恰当的数据分布对算法执行的效率有着重要的影响。有鉴于此,本项目提出了数据本地化问题。所谓的数据本地化,是要算法与数据的分布密切结合: 对于存储在文件系统的数据,使得算法执行的时候尽量去读取本地的数据,减少数据在计算节点间的迁移, 从而降低节点间的通信代价,提高算法的执行效率。本项目系统地研究在云计算框架下数据的本地化技术,以图数据和矩阵作为主要的大数据研究对象,通过数据分布功能引擎,以较小的代价实现数据优化分布。
大数据的时代已经到来,云计算研究得到国内外的研究者广泛关注,目前在云计算环境下大数据研究的主要成果是在管理架构和处理算法、大数据处理的关键技术等领域。本项目系统地研究在云计算框架下数据的本地化技术,以文本数据和矩阵作为主要的大数据研究对象,通过数据分布功能引擎,以较小的代价实现数据优化分布。本项目的主要思路是:算法与数据的分布密切结合: 对于存储在文件系统的数据,使得算法执行的时候尽量去读取本地的数据,减少数据在计算节点间的迁移, 从而降低节点间的通信代价,提高算法的执行效率。项目资助下所产生的研究成果将引起重视。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
瞬态波位移场计算方法在相控阵声场模拟中的实验验证
云计算环境下应用数据层节能计算研究
云计算环境下数据安全基础问题研究
云计算环境下大GML空间数据并行存取与处理关键问题
云计算环境中加密数据访问控制技术研究