云计算环境中的大数据在线聚集技术研究

基本信息
批准号:61502279
项目类别:青年科学基金项目
资助金额:20.00
负责人:史英杰
学科分类:
依托单位:北京服装学院
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:彭延军,赵中英,沙静,牛中瀚,李璇,邹本法,谈圳
关键词:
云数据查询处理在线聚集云计算大数据管理
结项摘要

With the development of information industry, the amount of data produced by enterprises and organizations is growing rapidly, big data analysis and mining have been gaining increasingly popularity in recent years. However, due to the data volumes and bandwidth limit of disk and memory, the big data analysis often takes long time to return the final results even in the cloud environment, which makes it unable to meet the requirements for real-time and interactive data processing. Many large scale aggregation queries are used to get a “big picture” of the data. Instead of computing the time-consuming precise result, the real-time approximately correct answer is of more commercial value. Thus, online aggregation on big data has been received considerable attention from the data management community in the past few years. In this project, we first propose the online aggregation system architecture, based on which we survey the state of art of online aggregation from four aspects: online data processing, data sampling, aggregation result estimate and data convergency diagnosis. Then, based on the characteristics of data organization and data processing in the cloud, this project aims at systematic exploring the basic theory and implementation methods for online aggregation of big data in the cloud. And we mainly focus on four key issues: online aggregation technology focused on ad-hoc complex queries on big data, self-adaptive online aggregation technology based on data distribution and workload characteristics, online aggregation for multiple queries. These studies will provide new ideas, theoretical methods and technical support for further research for online aggregation in the cloud.

随着信息产业的飞速发展,人们需要管理的数据量正以前所未有的速度增长,分析海量数据并挖掘其蕴含的价值成为最具增长性的业务之一。然而受到数据规模的影响、磁盘和内存带宽的限制,大数据分析即便是在云计算环境下,也无法达到实时处理及与用户交互的速度要求。对很多大数据分析应用来说,相对于耗费大量时间和计算资源所获取的精确结果,快速获得的具有准确性保证的估计结果更有意义。所以大数据的在线聚集逐渐成为当今国内外学者的研究热点之一。本项目首先依据在线聚集框架对在线查询处理技术、数据采样技术、聚集结果估计技术和收敛程度诊断技术的研究现状进行分析。在此基础上,本项目拟从云计算中大数据的存储和处理特质出发,具体解决大数据领域应用中面向即席复杂查询的在线聚集技术、感知数据分布和负载特征的自适应在线聚集技术、面向多查询场景的在线聚集技术等关键问题,为云计算中针对大数据的在线聚集进一步研究与应用奠定基础、提供新思路。

项目摘要

随着信息产业的飞速发展,各类组织和企业产生的数据量正以前所未有的速度增长,分析海量数据并挖掘其蕴含的价值成为最具增长性的业务之一。然而受到数据规模的影响、磁盘和内存带宽的限制,大数据的复杂分析即便是在云计算环境下,也无法达到实时处理及与用户交互的速度要求。对于很多大数据分析应用来说,与其耗费大量时间和计算资源获取完全精确的结果,快速获得的具有准确性保证的估计结果更有价值。在线聚集提供了一种根据样本快速获得估计结果及其“精确程度”的方法,具有重要的意义。本项目围绕大数据领域的在线聚集基础理论和关键技术,从以下五个方面展开了研究:1)基于马尔可夫链的多表复杂查询在线聚集技术;2)基于负载特征和数据分布特征分析的动态采样技术;3)面向多查询场景的在线聚集优化技术;4)在线聚集技术在可穿戴领域中的应用探索;5)面向数据分析应用的大数据系统性能评测分析。通过项目的研究,形成了覆盖数据管理平台、采样技术、在线查询处理、结果估计算法的较为完整的在线聚集多层次知识体系,为后续研究奠定了基础;将在线聚集技术在可穿戴计算领域进行了应用,为在多应用场景的扩展做出了贡献。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
3

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

DOI:10.3969/j.issn.1674-0858.2020.04.30
发表时间:2020
4

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021
5

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021

史英杰的其他基金

批准号:71201114
批准年份:2012
资助金额:19.00
项目类别:青年科学基金项目

相似国自然基金

1

云计算环境下面向大数据的在线聚集并行优化机制研究

批准号:61572128
批准年份:2015
负责人:宋爱波
学科分类:F0207
资助金额:16.00
项目类别:面上项目
2

云计算环境下基于维存储的OLAP聚集计算关键技术研究

批准号:61070161
批准年份:2010
负责人:宋爱波
学科分类:F0207
资助金额:33.00
项目类别:面上项目
3

云计算环境中数据安全的理论与关键技术研究

批准号:61232016
批准年份:2012
负责人:孙星明
学科分类:F0206
资助金额:275.00
项目类别:重点项目
4

云计算环境中加密数据访问控制技术研究

批准号:61702548
批准年份:2017
负责人:高海英
学科分类:F0205
资助金额:23.00
项目类别:青年科学基金项目