云计算环境下面向大数据的在线聚集并行优化机制研究

基本信息
批准号:61572128
项目类别:面上项目
资助金额:16.00
负责人:宋爱波
学科分类:
依托单位:东南大学
批准年份:2015
结题年份:2016
起止时间:2016-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:赵茂先,李艳艳,王宇翔,金嘉晖,赵经华,钱唯,蔡凯臻,赵亚飞,涂金林
关键词:
在线聚集云计算大数据查询处理近似估计
结项摘要

Online aggregation evolves the accurate query processing where data are completely scanned into sample-based approximate query processing, which is a essential data processing technology for big data, especially to those application where accuracy is not as important, such as tendency analysis, evaluation, prediction and other data processing scenarios. Current research work of online aggregation focuses on the deployment and implementation problems in cloud environment to ensure the functionality, but ignores the optimization on data organization and task execution concerning the cloud architecture. This project is dedicate to enhancing the performance of online aggregation in cloud environment, focuses on the sampling performance, data placement, concurrent multi-query and estimation failure problems which challenges the current performance of online aggregation in cloud environment, steps further into the mechanisms on data organization and management, concurrent multi-query optimization and query mode switch in the cloud PaaS layer and finally provides technical support for efficient big data approximate concurrent query. This project will implement the online aggregation prototype system in cloud environment that will be deployed on the Southeast University Cloud Platform and apply it to the big data analyze applications such as social network and e-commerce, which will flourish the big data research nationwide.

在线聚集是将面向数据完全扫描的精确查询计算转变成面向随机样本的近似查询计算,在当今的大数据时代,这是一个非常重要数据处理方法,尤其是对查询精度要求不是太高的应用,如趋势分析、评估、预测等数据分析场景中。目前,在线聚集已有的研究工作主要是在现有云计算架构下的部署与实现问题,确保其功能的可用性,没有从云计算架构下的数据组织、任务执行等方面对在线聚集进行性能优化。本项目以提高云环境下在线聚集查询的执行性能为目标,针对当前云环境下影响在线聚集查询执行性能的采样效率、数据放置、多查询的并发和估计失效等问题,深入研究云计算PaaS层面向在线聚集查询的数据组织管理、并发查询优化和查询模式切换的有关机理和机制,为大数据近似估计查询的高效并行计算提供技术支撑。本项目将实现一套云计算在线聚集原型系统,在东南大学云计算平台部署验证,并应用到社交网络、电子商务等大数据分析应用中,推动我国大数据处理的研究。

项目摘要

针对在Hadoop框架下,在线聚集查询作业被分解成若干子任务并指派到合适的节点独立完成各自的随机采样、统计量计算以及近似估计等过程时,没有考虑多查询任务之间的优化问题,首先研究了用户提交的多查询任务到Hadoop并行计算框架的翻译过程,在Hadoop并行计算框架作业级,制定作业合并规则,合并相似查询的作业;其次在Hadoop并行计算框架任务级,研究分析了建立相似查询作业的采样相关性与计算相关性理论模型,使之共享数据采样和统计量计算,减少冗余开销;最后,搭建云计算在线聚集系统的研究试验平台,进一步探究了基于内存计算的可行性。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
3

基于余量谐波平衡的两质点动力学系统振动频率与响应分析

基于余量谐波平衡的两质点动力学系统振动频率与响应分析

DOI:10.6052/1672⁃6553⁃2017⁃059
发表时间:2018
4

变可信度近似模型及其在复杂装备优化设计中的应用研究进展

变可信度近似模型及其在复杂装备优化设计中的应用研究进展

DOI:10.3901/jme.2020.24.219
发表时间:2020
5

瞬态波位移场计算方法在相控阵声场模拟中的实验验证

瞬态波位移场计算方法在相控阵声场模拟中的实验验证

DOI:
发表时间:2020

宋爱波的其他基金

相似国自然基金

1

云计算环境中的大数据在线聚集技术研究

批准号:61502279
批准年份:2015
负责人:史英杰
学科分类:F0202
资助金额:20.00
项目类别:青年科学基金项目
2

云环境下面向大数据并行计算的工作流执行优化研究

批准号:61370207
批准年份:2013
负责人:宋爱波
学科分类:F0207
资助金额:76.00
项目类别:面上项目
3

云计算环境下大GML空间数据并行存取与处理关键问题

批准号:41561085
批准年份:2015
负责人:兰小机
学科分类:D0114
资助金额:43.00
项目类别:地区科学基金项目
4

云计算环境下数据感知的大数据管理优化策略研究

批准号:61602525
批准年份:2016
负责人:郑美光
学科分类:F0204
资助金额:21.00
项目类别:青年科学基金项目