基于Hadoop的分布式并行联机分析处理技术研究

基本信息
批准号:61173028
项目类别:面上项目
资助金额:54.00
负责人:鲍玉斌
学科分类:
依托单位:东北大学
批准年份:2011
结题年份:2015
起止时间:2012-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:宋杰,聂铁铮,师金钢,于鹏,薛见新,衣军成,李炳梁,袁方,高峰
关键词:
聚集计算统计直方图条件过滤OLAPHadoop
结项摘要

传统的OLAP技术,在进行OLAP分析时不能再设置数据的过滤条件,只能在分析的维度上选择相应的值范围作为分析条件。实际上,这样的分析过于简单,不能满足应用需求。另外,目前的OLAP技术不能很好地支持复杂的聚集查询(例如分位数、众数)。另外传统的并行OLAP技术存在负载均衡困难以及系统伸缩性差等问题。而基于Hadoop的并行处理模式可伸缩性好且负载均衡容易。本项目提出了用于分布式并行处理的OLAP模型,直方图立方HistCube。基于此模型,研究基于Hadoop架构的解决上述问题的分布式并行OLAP技术。研究内容包括:(1)多维聚集查询通用模型;(2)HistCube的计算、存储和更新技术;(3)基于HistCube模型的支持OLAP操作的聚集查询与优化算法;(4)HistCube的分布式并行索引与优化技术。目标是研究能够解决上述问题的用于OLAP的通用模型和高效聚集查询算法及其相关技术。

项目摘要

传统的OLAP技术,在进行OLAP分析时不能再设置数据的过滤条件,只能在分析的维度上选择相应的值范围作为分析条件。实际上,这样的分析过于简单,不能满足应用需求。另外,目前的OLAP技术不能很好地支持复杂的聚集查询(例如分位数、众数)。另外传统的并行OLAP技术存在负载均衡困难以及系统伸缩性差等问题。而基于Hadoop的并行处理模式可伸缩性好且负载均衡容易。本项目提出了一个面向多维聚集查询的通用模型。并从一下几点进行重点研究:(1)多维聚集查询通用模型的研究,给出了利用统计直方图作为统计存储的中间结果,这样可以解决上面的几个问题,同时可以回答多种类型的聚集查询;(2)基于Hadoop的HistCube的计算、存储和更新技术,利用Hadoop环境,设计了3种快速计算封闭数据立方的算法,例如,基本的封闭直方图立方计算算法、MRC-Cubing算法、改进的MRC-Cubing算法,为了降低数据立方需要很大的存储空间的问题,我们设计了多种数据压缩方法,例如从算法内部的直方图表述方式、从直方图的存储文件的压缩等方面;大数据需要不断的追加新数据,因此提出了数据立方的更新策略,即主立方和子立方共存,适当时机进行重新计算,而非增量更新;(3)基于Hadoop的HistCube上多种聚集查询算法研究:我们在查询结果的基础上,设计了多种聚集函数算子,包括汇总(sum)、均值(average)、方差(variance)、r-分位数(r-quantile)、众数(mode)、Topk等;同时研究了基于HBase存储数据立方结果,以及基于Impala完成查询的过程;(4)基于Hadoop的HistCube上的索引与优化技术:为了加快在数据立方上的聚集查询速度,设计针对HDFS文件系统和HBase的两种索引文件;(5)为了跟好地在Hadoop环境下进行研究和开发以及绿色查询计算,提出了云计算环境下的能耗模型以及能耗的测量和计算方法,设计了云计算环境下大数据处理的测试基准,提出了Web应用SaaS化的自动化方法,即设计了将已有应用SaaS化的,命令集,自动完成Web应用的SaaS化;(6)在MapReduce模型之外,我们研究了基于BSP模型的大(图)数据迭代计算中的关键技术问题和原型系统的研制,提出了应用不同场合的三种图数据划分方法,即BHP算法、EC-VHP和OnFly算法。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

高压工况对天然气滤芯性能影响的实验研究

高压工况对天然气滤芯性能影响的实验研究

DOI:10.11949/0438-1157.20201260
发表时间:2021
2

多空间交互协同过滤推荐

多空间交互协同过滤推荐

DOI:10.11896/jsjkx.201100031
发表时间:2021
3

瞬态波位移场计算方法在相控阵声场模拟中的实验验证

瞬态波位移场计算方法在相控阵声场模拟中的实验验证

DOI:
发表时间:2020
4

污染土壤高压旋喷修复药剂迁移透明土试验及数值模拟

污染土壤高压旋喷修复药剂迁移透明土试验及数值模拟

DOI:10.11908/j.issn.0253-374x.19265
发表时间:2020
5

计及焊层疲劳影响的风电变流器IGBT 模块热分析及改进热网络模型

计及焊层疲劳影响的风电变流器IGBT 模块热分析及改进热网络模型

DOI:10.19595/j.cnki.1000-6753.tces.151503
发表时间:2017

鲍玉斌的其他基金

批准号:60773222
批准年份:2007
资助金额:24.00
项目类别:面上项目

相似国自然基金

1

基于浓缩数据立方的联机分析处理

批准号:60303030
批准年份:2003
负责人:冯剑琳
学科分类:F0202
资助金额:7.00
项目类别:青年科学基金项目
2

基于网格环境的高维OLAP数据联机分析与处理技术研究

批准号:60773103
批准年份:2007
负责人:宋爱波
学科分类:F0207
资助金额:29.00
项目类别:面上项目
3

分布式并行处理算法

批准号:69073343
批准年份:1990
负责人:康立山
学科分类:F0204
资助金额:3.00
项目类别:面上项目
4

分布式并行算法与分布式并行处理计算机结构关系的研究

批准号:69173322
批准年份:1991
负责人:张德富
学科分类:F02
资助金额:3.00
项目类别:面上项目