基于Hadoop的分布式并行联机分析处理技术研究

基本信息

批准号：61173028

项目类别：面上项目

资助金额：54.00

负责人：鲍玉斌

学科分类：

依托单位：东北大学

批准年份：2011

结题年份：2015

起止时间：2012-01-01 - 2015-12-31

项目状态：已结题

项目参与者：宋杰,聂铁铮,师金钢,于鹏,薛见新,衣军成,李炳梁,袁方,高峰

关键词：

聚集计算统计直方图条件过滤OLAPHadoop

结项摘要

传统的OLAP技术，在进行OLAP分析时不能再设置数据的过滤条件，只能在分析的维度上选择相应的值范围作为分析条件。实际上，这样的分析过于简单，不能满足应用需求。另外，目前的OLAP技术不能很好地支持复杂的聚集查询(例如分位数、众数）。另外传统的并行OLAP技术存在负载均衡困难以及系统伸缩性差等问题。而基于Hadoop的并行处理模式可伸缩性好且负载均衡容易。本项目提出了用于分布式并行处理的OLAP模型，直方图立方HistCube。基于此模型，研究基于Hadoop架构的解决上述问题的分布式并行OLAP技术。研究内容包括：(1)多维聚集查询通用模型；(2)HistCube的计算、存储和更新技术；(3)基于HistCube模型的支持OLAP操作的聚集查询与优化算法；(4)HistCube的分布式并行索引与优化技术。目标是研究能够解决上述问题的用于OLAP的通用模型和高效聚集查询算法及其相关技术。

项目摘要

传统的OLAP技术，在进行OLAP分析时不能再设置数据的过滤条件，只能在分析的维度上选择相应的值范围作为分析条件。实际上，这样的分析过于简单，不能满足应用需求。另外，目前的OLAP技术不能很好地支持复杂的聚集查询(例如分位数、众数）。另外传统的并行OLAP技术存在负载均衡困难以及系统伸缩性差等问题。而基于Hadoop的并行处理模式可伸缩性好且负载均衡容易。本项目提出了一个面向多维聚集查询的通用模型。并从一下几点进行重点研究：（1）多维聚集查询通用模型的研究，给出了利用统计直方图作为统计存储的中间结果，这样可以解决上面的几个问题，同时可以回答多种类型的聚集查询；（2）基于Hadoop的HistCube的计算、存储和更新技术，利用Hadoop环境，设计了3种快速计算封闭数据立方的算法，例如，基本的封闭直方图立方计算算法、MRC-Cubing算法、改进的MRC-Cubing算法，为了降低数据立方需要很大的存储空间的问题，我们设计了多种数据压缩方法，例如从算法内部的直方图表述方式、从直方图的存储文件的压缩等方面；大数据需要不断的追加新数据，因此提出了数据立方的更新策略，即主立方和子立方共存，适当时机进行重新计算，而非增量更新；（3）基于Hadoop的HistCube上多种聚集查询算法研究：我们在查询结果的基础上，设计了多种聚集函数算子，包括汇总（sum）、均值（average）、方差（variance）、r-分位数（r-quantile）、众数（mode）、Topk等；同时研究了基于HBase存储数据立方结果，以及基于Impala完成查询的过程；（4）基于Hadoop的HistCube上的索引与优化技术：为了加快在数据立方上的聚集查询速度，设计针对HDFS文件系统和HBase的两种索引文件；（5）为了跟好地在Hadoop环境下进行研究和开发以及绿色查询计算，提出了云计算环境下的能耗模型以及能耗的测量和计算方法，设计了云计算环境下大数据处理的测试基准，提出了Web应用SaaS化的自动化方法，即设计了将已有应用SaaS化的，命令集，自动完成Web应用的SaaS化；（6）在MapReduce模型之外，我们研究了基于BSP模型的大（图）数据迭代计算中的关键技术问题和原型系统的研制，提出了应用不同场合的三种图数据划分方法，即BHP算法、EC-VHP和OnFly算法。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：

发表时间：2021

DOI：10.18307/2018.0503

发表时间：2018

DOI：10.14006/j.jzjgxb.2018.0676

发表时间：2021

DOI：

发表时间：2017

鲍玉斌的其他基金

批准号：60773222

批准年份：2007

资助金额：24.00

项目类别：面上项目

相似国自然基金

基于浓缩数据立方的联机分析处理

批准号：60303030

批准年份：2003

负责人：冯剑琳

学科分类：F0202

资助金额：7.00

项目类别：青年科学基金项目

基于网格环境的高维OLAP数据联机分析与处理技术研究

批准号：60773103

批准年份：2007

负责人：宋爱波

学科分类：F0207

资助金额：29.00

项目类别：面上项目

分布式并行处理算法

批准号：69073343

批准年份：1990

负责人：康立山

学科分类：F0204

资助金额：3.00

项目类别：面上项目

分布式并行算法与分布式并行处理计算机结构关系的研究

批准号：69173322

批准年份：1991

负责人：张德富

学科分类：F02

资助金额：3.00

项目类别：面上项目

基于Hadoop的分布式并行联机分析处理技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

智能煤矿建设路线与工程实践

药食兼用真菌蛹虫草的液体发酵培养条件优化

2009 -2017年太湖湖泛发生特征及其影响因素

带球冠形脱空缺陷的钢管混凝土构件拉弯试验和承载力计算方法研究

基于小波高阶统计量的数字图像来源取证方法

鲍玉斌的其他基金

基于QoS的实时数据仓库关键技术研究

相似国自然基金