高度可扩展的数据仓库数据编码方法及查询处理新技术研究

基本信息

批准号：61170013

项目类别：面上项目

资助金额：55.00

负责人：覃雄派

学科分类：

依托单位：中国人民大学

批准年份：2011

结题年份：2015

起止时间：2012-01-01 - 2015-12-31

项目状态：已结题

项目参与者：曹巍,刘桃,王会举,薛忠斌,焦敏,王占伟,孙妍,耿怡娜

关键词：

数据仓库高度可扩展维度层次编码大规模机群

结项摘要

在数据分析领域，数据量急剧膨胀。数据仓库建模的主要方法是星型模型，而负载主要是聚集查询。本研究的内容，是面向大规模机群环境的星型模型数据的高效分析技术。研究的主要思路，是通过维表的层次编码技术消除查询处理过程中的星型连接操作，使得数据容易分布到大规模机群上，实现并行处理，从而提高分析性能。围绕维度层次编码的基本思想，我们拟在数据存储和压缩、新的索引技术、新的查询优化和任务调度技术、并行查询执行技术、系统的容错保证等方面展开研究。该研究着眼于系统的可扩展性，通过数据编码方法消除系统的扩展瓶颈，具有理论意义；基于大规模廉价机群，利用并行处理实现数据的快速分析，有利用降低系统成本和实现数据分析的大众化，具有现实的应用前景。

项目摘要

在大数据时代，传统数据库面临前所未有的挑战。我们的研究题目是，如何提高大数据环境下的OLAP(Online Analytic Processing)查询性能。数据仓库的模型一般是星型模型，星型模型包括维表和事实表。在进行查询分析的时候，需要对维表和事实表进行连接(Join)操作。在分布式环境下，如果把维表和事实表独立分布到各个节点上，在进行查询的时候，将导致极大的网络开销，查询性能不能满足在线分析处理的要求。我们针对维表的层次性，比如日期的年/月/日，产品的大类/小类等，进行基于bit序列的层次编码，然后用这个编码替代事实表的外键。在此基础上，把事实表横向分割，分布到各个节点，并且把聚集查询根据其聚集层次改写成仅存取层次编码，从而无需在查询处理阶段进行维表和事实表的连接操作，达到并行处理的目的。我们针对该存储模型，设计了系统架构、索引技术(包括跳跃式索引和映射索引)、查询优化技术(不同数据副本不同数据格式、批量谓词处理、共享扫描等)、以及快速数据装载技术。我们的存储模型，获得了比HadoopDB高一个数量级的性能。利用索引技术，我们实现了跳读，即把无关的数据块忽略掉，不进行装载，进一步提高了查询性能。基于索引的跳读技术，获得比顺序扫描高8-10倍的性能。我们研究的数据装载技术，利用哈希技术和并行装载算法，以流水线方式完成数据的分片、编码、排序、装载等操作，极大提高了数据装载速度。我们的算法获得了计算机学会第二届中国大数据创新大赛－“网络日志大数据快速装载和实时查询”竞赛组总评的第一名，并且获得整个大赛的二等奖。我们的研究工作和实验结果，提供了大数据条件下的OLAP处理的可行的思路，通过数据的适当编码、使用合适的索引技术和查询优化技术，可以在分布式环境下，利用各个节点的并行处理能力，达到在线数据分析所需要的性能要求。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2016

DOI：

发表时间：2021

DOI：

发表时间：2020

DOI：10.13196/j.cims.2020.10.006

发表时间：2020

DOI：

发表时间：2020

覃雄派的其他基金

相似国自然基金

管理决策中数据仓库和数据开采新技术研究

批准号：79670019

批准年份：1996

负责人：陈文伟

学科分类：G0112

资助金额：7.00

项目类别：面上项目

无线传感器网络查询处理新技术研究

批准号：60673138

批准年份：2006

负责人：陈红

学科分类：F0202

资助金额：26.00

项目类别：面上项目

高扩展性XML关键字查询处理技术

批准号：61572421

批准年份：2015

负责人：陈子阳

学科分类：F0202

资助金额：66.00

项目类别：面上项目

支持可扩展事务处理的数据库日志机制及其实现

批准号：61672232

批准年份：2016

负责人：钱卫宁

学科分类：F0202

资助金额：16.00

项目类别：面上项目

高度可扩展的数据仓库数据编码方法及查询处理新技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于MCPF算法的列车组合定位应用研究

长链基因间非编码RNA 00681竞争性结合miR-16促进黑素瘤细胞侵袭和迁移

我国哮喘病患者可避免住院现状分析

基于可拓设计的产品个性化定制方法

长链非编码 RNA BCYRN1 与相关疾病的研究进展

覃雄派的其他基金

相似国自然基金