高度可扩展的数据仓库数据编码方法及查询处理新技术研究

基本信息
批准号:61170013
项目类别:面上项目
资助金额:55.00
负责人:覃雄派
学科分类:
依托单位:中国人民大学
批准年份:2011
结题年份:2015
起止时间:2012-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:曹巍,刘桃,王会举,薛忠斌,焦敏,王占伟,孙妍,耿怡娜
关键词:
数据仓库高度可扩展维度层次编码大规模机群
结项摘要

在数据分析领域,数据量急剧膨胀。数据仓库建模的主要方法是星型模型,而负载主要是聚集查询。本研究的内容,是面向大规模机群环境的星型模型数据的高效分析技术。研究的主要思路,是通过维表的层次编码技术消除查询处理过程中的星型连接操作,使得数据容易分布到大规模机群上,实现并行处理,从而提高分析性能。围绕维度层次编码的基本思想,我们拟在数据存储和压缩、新的索引技术、新的查询优化和任务调度技术、并行查询执行技术、系统的容错保证等方面展开研究。该研究着眼于系统的可扩展性,通过数据编码方法消除系统的扩展瓶颈,具有理论意义;基于大规模廉价机群,利用并行处理实现数据的快速分析,有利用降低系统成本和实现数据分析的大众化,具有现实的应用前景。

项目摘要

在大数据时代,传统数据库面临前所未有的挑战。我们的研究题目是,如何提高大数据环境下的OLAP(Online Analytic Processing)查询性能。数据仓库的模型一般是星型模型,星型模型包括维表和事实表。在进行查询分析的时候,需要对维表和事实表进行连接(Join)操作。在分布式环境下,如果把维表和事实表独立分布到各个节点上,在进行查询的时候,将导致极大的网络开销,查询性能不能满足在线分析处理的要求。我们针对维表的层次性,比如日期的年/月/日,产品的大类/小类等,进行基于bit序列的层次编码,然后用这个编码替代事实表的外键。在此基础上,把事实表横向分割,分布到各个节点,并且把聚集查询根据其聚集层次改写成仅存取层次编码,从而无需在查询处理阶段进行维表和事实表的连接操作,达到并行处理的目的。我们针对该存储模型,设计了系统架构、索引技术(包括跳跃式索引和映射索引)、查询优化技术(不同数据副本不同数据格式、批量谓词处理、共享扫描等)、以及快速数据装载技术。我们的存储模型,获得了比HadoopDB高一个数量级的性能。利用索引技术,我们实现了跳读,即把无关的数据块忽略掉,不进行装载,进一步提高了查询性能。基于索引的跳读技术,获得比顺序扫描高8-10倍的性能。我们研究的数据装载技术,利用哈希技术和并行装载算法,以流水线方式完成数据的分片、编码、排序、装载等操作,极大提高了数据装载速度。我们的算法获得了计算机学会第二届中国大数据创新大赛-“网络日志大数据快速装载和实时查询”竞赛组总评的第一名,并且获得整个大赛的二等奖。我们的研究工作和实验结果,提供了大数据条件下的OLAP处理的可行的思路,通过数据的适当编码、使用合适的索引技术和查询优化技术,可以在分布式环境下,利用各个节点的并行处理能力,达到在线数据分析所需要的性能要求。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
2

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020
3

采用深度学习的铣刀磨损状态预测模型

采用深度学习的铣刀磨损状态预测模型

DOI:10.3969/j.issn.1004-132x.2020.17.009
发表时间:2020
4

基于可拓学倾斜软岩巷道支护效果评价方法

基于可拓学倾斜软岩巷道支护效果评价方法

DOI:10.13545/j.cnki.jmse.2020.03.008
发表时间:2020
5

下调SNHG16对胃癌细胞HGC-27细胞周期的影响

下调SNHG16对胃癌细胞HGC-27细胞周期的影响

DOI:
发表时间:2017

覃雄派的其他基金

相似国自然基金

1

管理决策中数据仓库和数据开采新技术研究

批准号:79670019
批准年份:1996
负责人:陈文伟
学科分类:G0112
资助金额:7.00
项目类别:面上项目
2

无线传感器网络查询处理新技术研究

批准号:60673138
批准年份:2006
负责人:陈红
学科分类:F0202
资助金额:26.00
项目类别:面上项目
3

高扩展性XML关键字查询处理技术

批准号:61572421
批准年份:2015
负责人:陈子阳
学科分类:F0202
资助金额:66.00
项目类别:面上项目
4

支持可扩展事务处理的数据库日志机制及其实现

批准号:61672232
批准年份:2016
负责人:钱卫宁
学科分类:F0202
资助金额:16.00
项目类别:面上项目