In the era of big data, the volume of data generated, stored and utilized by human has grown from TBs to PBs and even EBs, and the increasing growth is still going on. Big data provides immeasurable potential value for various aspects in human society, and big data analytic is an effective tool to exploit such value. However, neither the external memory based methods in clusters nor the traditional main memory based data management techniques are able to query big data efficiently with acceptable economic cost. It is a significant challenge to manage big data to support effective data analytic. This project exploits the volume and value characteristics of big data, and combines distributed computing with main memory data management technology together. As a result, a main memory based big data analytic system in cluster environments is built to store and query big data. The goal of this project is to improve big data analytic efficiency while reducing the economic cost of big data analytic. The research contents of this project include key theories and technologies of indexing and querying big data in main memory based system in cluster environments. In more details, this project studies big data indexes, query processing algorithms for various types of queries, query optimization algorithms with regard to query performance and system energy consumption. Finally, experiments in real cluster environments will be conducted to validate the effectiveness and efficiency of theories and technologies proposed by this project.
随着大数据时代的到来,人类产生、拥有和使用的数据量已从TB级增长到PB级甚至EB级,而且继续加速增长。大数据中蕴含着能够促进各行各业发展的巨大价值,而大数据分析是应用大数据价值的有效手段。然而集群环境下基于外存的方法和传统的内存数据管理技术都无法在规模如此庞大的数据中高效、低代价地处理分析查询。如何有效地支持大数据分析是目前人们面临的重要挑战。本项目从数据管理的角度出发,针对大数据体积大、价值密度低的特点,将分布式计算和内存数据管理技术相结合,构建集群环境下基于内存的大数据分析系统。本项目以提高大数据分析效率、降低大数据分析经济代价为目标,研究集群环境下基于内存的大数据分析系统中的大数据索引、分析查询处理的关键理论和技术,包括大数据分析所需的多种索引结构;精确的分析查询处理算法和近似的分析查询处理算法;分析查询性能与系统能耗方面的优化方法;通过构建的原型系统验证所提出算法的正确性和有效性。
近年来,大数据出现在人类社会的各个行业中,其体积巨大和价值密度低的特点为大数据分析带来了前所未有的挑战。与此同时,集群环境的日益普及也为大数据分析提供了良好的潜在计算平台。然而,现有的依赖于外存的大数据分析方法计算效率低下,传统的内存数据管理技术也无法有效地处理大数据集合,如何高效地在集群环境下基于内存来完成大数据分析任务已经成为十分重要的挑战性问题。本课题针对集群环境下基于内存的计算平台,研究大数据分析的相关关键基础理论和技术,主要包括集群环境下基于内存的大数据分析所需要的索引技术、查询算法和优化算法,从大数据存储与索引、分析查询处理算法和分析查询优化算法三个层面解决大数据分析问题,并构建大数据分析原型系统用于验证相关算法的有效性。本课题执行期间取得了良好的进展,产出了一系列研究成果并发表于知名国际期刊和重要国际学术会议。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
固溶时效深冷复合处理对ZCuAl_(10)Fe_3Mn_2合金微观组织和热疲劳性能的影响
业务过程成批处理配置优化方法
基于近似L_0范数的电容层析成像敏感场优化算法
集群环境下基于内存的高性能数据管理与分析
内存集群环境下的实时数据处理
集群环境下内存空间数据库管理与查询技术研究
大数据环境下基于动态数据模型的时效数据分析关键技术研究