在数据分析领域,数据量急剧膨胀。数据仓库建模的主要方法是星型模型,而负载主要是聚集查询。本研究的内容,是面向大规模机群环境的星型模型数据的高效分析技术。研究的主要思路,是通过维表的层次编码技术消除查询处理过程中的星型连接操作,使得数据容易分布到大规模机群上,实现并行处理,从而提高分析性能。围绕维度层次编码的基本思想,我们拟在数据存储和压缩、新的索引技术、新的查询优化和任务调度技术、并行查询执行技术、系统的容错保证等方面展开研究。该研究着眼于系统的可扩展性,通过数据编码方法消除系统的扩展瓶颈,具有理论意义;基于大规模廉价机群,利用并行处理实现数据的快速分析,有利用降低系统成本和实现数据分析的大众化,具有现实的应用前景。
在大数据时代,传统数据库面临前所未有的挑战。我们的研究题目是,如何提高大数据环境下的OLAP(Online Analytic Processing)查询性能。数据仓库的模型一般是星型模型,星型模型包括维表和事实表。在进行查询分析的时候,需要对维表和事实表进行连接(Join)操作。在分布式环境下,如果把维表和事实表独立分布到各个节点上,在进行查询的时候,将导致极大的网络开销,查询性能不能满足在线分析处理的要求。我们针对维表的层次性,比如日期的年/月/日,产品的大类/小类等,进行基于bit序列的层次编码,然后用这个编码替代事实表的外键。在此基础上,把事实表横向分割,分布到各个节点,并且把聚集查询根据其聚集层次改写成仅存取层次编码,从而无需在查询处理阶段进行维表和事实表的连接操作,达到并行处理的目的。我们针对该存储模型,设计了系统架构、索引技术(包括跳跃式索引和映射索引)、查询优化技术(不同数据副本不同数据格式、批量谓词处理、共享扫描等)、以及快速数据装载技术。我们的存储模型,获得了比HadoopDB高一个数量级的性能。利用索引技术,我们实现了跳读,即把无关的数据块忽略掉,不进行装载,进一步提高了查询性能。基于索引的跳读技术,获得比顺序扫描高8-10倍的性能。我们研究的数据装载技术,利用哈希技术和并行装载算法,以流水线方式完成数据的分片、编码、排序、装载等操作,极大提高了数据装载速度。我们的算法获得了计算机学会第二届中国大数据创新大赛-“网络日志大数据快速装载和实时查询”竞赛组总评的第一名,并且获得整个大赛的二等奖。我们的研究工作和实验结果,提供了大数据条件下的OLAP处理的可行的思路,通过数据的适当编码、使用合适的索引技术和查询优化技术,可以在分布式环境下,利用各个节点的并行处理能力,达到在线数据分析所需要的性能要求。
{{i.achievement_title}}
数据更新时间:2023-05-31
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
采用深度学习的铣刀磨损状态预测模型
基于可拓学倾斜软岩巷道支护效果评价方法
下调SNHG16对胃癌细胞HGC-27细胞周期的影响
管理决策中数据仓库和数据开采新技术研究
无线传感器网络查询处理新技术研究
高扩展性XML关键字查询处理技术
支持可扩展事务处理的数据库日志机制及其实现