集群环境下基于内存的大数据分析技术研究

基本信息
批准号:61602129
项目类别:青年科学基金项目
资助金额:20.00
负责人:王金宝
学科分类:
依托单位:哈尔滨工业大学
批准年份:2016
结题年份:2019
起止时间:2017-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:刘显敏,尹丹,李鸣鹏,张开旗
关键词:
索引内存数据管理大数据分析集群查询处理
结项摘要

In the era of big data, the volume of data generated, stored and utilized by human has grown from TBs to PBs and even EBs, and the increasing growth is still going on. Big data provides immeasurable potential value for various aspects in human society, and big data analytic is an effective tool to exploit such value. However, neither the external memory based methods in clusters nor the traditional main memory based data management techniques are able to query big data efficiently with acceptable economic cost. It is a significant challenge to manage big data to support effective data analytic. This project exploits the volume and value characteristics of big data, and combines distributed computing with main memory data management technology together. As a result, a main memory based big data analytic system in cluster environments is built to store and query big data. The goal of this project is to improve big data analytic efficiency while reducing the economic cost of big data analytic. The research contents of this project include key theories and technologies of indexing and querying big data in main memory based system in cluster environments. In more details, this project studies big data indexes, query processing algorithms for various types of queries, query optimization algorithms with regard to query performance and system energy consumption. Finally, experiments in real cluster environments will be conducted to validate the effectiveness and efficiency of theories and technologies proposed by this project.

随着大数据时代的到来,人类产生、拥有和使用的数据量已从TB级增长到PB级甚至EB级,而且继续加速增长。大数据中蕴含着能够促进各行各业发展的巨大价值,而大数据分析是应用大数据价值的有效手段。然而集群环境下基于外存的方法和传统的内存数据管理技术都无法在规模如此庞大的数据中高效、低代价地处理分析查询。如何有效地支持大数据分析是目前人们面临的重要挑战。本项目从数据管理的角度出发,针对大数据体积大、价值密度低的特点,将分布式计算和内存数据管理技术相结合,构建集群环境下基于内存的大数据分析系统。本项目以提高大数据分析效率、降低大数据分析经济代价为目标,研究集群环境下基于内存的大数据分析系统中的大数据索引、分析查询处理的关键理论和技术,包括大数据分析所需的多种索引结构;精确的分析查询处理算法和近似的分析查询处理算法;分析查询性能与系统能耗方面的优化方法;通过构建的原型系统验证所提出算法的正确性和有效性。

项目摘要

近年来,大数据出现在人类社会的各个行业中,其体积巨大和价值密度低的特点为大数据分析带来了前所未有的挑战。与此同时,集群环境的日益普及也为大数据分析提供了良好的潜在计算平台。然而,现有的依赖于外存的大数据分析方法计算效率低下,传统的内存数据管理技术也无法有效地处理大数据集合,如何高效地在集群环境下基于内存来完成大数据分析任务已经成为十分重要的挑战性问题。本课题针对集群环境下基于内存的计算平台,研究大数据分析的相关关键基础理论和技术,主要包括集群环境下基于内存的大数据分析所需要的索引技术、查询算法和优化算法,从大数据存储与索引、分析查询处理算法和分析查询优化算法三个层面解决大数据分析问题,并构建大数据分析原型系统用于验证相关算法的有效性。本课题执行期间取得了良好的进展,产出了一系列研究成果并发表于知名国际期刊和重要国际学术会议。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
3

固溶时效深冷复合处理对ZCuAl_(10)Fe_3Mn_2合金微观组织和热疲劳性能的影响

固溶时效深冷复合处理对ZCuAl_(10)Fe_3Mn_2合金微观组织和热疲劳性能的影响

DOI:10.11868/j.issn.1001-4381.2018.001042
发表时间:2019
4

业务过程成批处理配置优化方法

业务过程成批处理配置优化方法

DOI:10.13196/j.cims.2019.04.019
发表时间:2019
5

基于近似L_0范数的电容层析成像敏感场优化算法

基于近似L_0范数的电容层析成像敏感场优化算法

DOI:10.3788/LOP202158.1210025
发表时间:2021

相似国自然基金

1

集群环境下基于内存的高性能数据管理与分析

批准号:61332006
批准年份:2013
负责人:周傲英
学科分类:F0202
资助金额:300.00
项目类别:重点项目
2

内存集群环境下的实时数据处理

批准号:61672233
批准年份:2016
负责人:周敏奇
学科分类:F0202
资助金额:63.00
项目类别:面上项目
3

集群环境下内存空间数据库管理与查询技术研究

批准号:41471321
批准年份:2014
负责人:景宁
学科分类:D0114
资助金额:82.00
项目类别:面上项目
4

大数据环境下基于动态数据模型的时效数据分析关键技术研究

批准号:61402090
批准年份:2014
负责人:张莉
学科分类:F0202
资助金额:25.00
项目类别:青年科学基金项目