基于内存的大规模空间数据管理和机器学习系统

基本信息
批准号:61802364
项目类别:青年科学基金项目
资助金额:25.00
负责人:唐明洁
学科分类:
依托单位:中国科学院计算机网络信息中心
批准年份:2018
结题年份:2021
起止时间:2019-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:沈志宏,汪洋,肖潇,王卫军,蒲军
关键词:
大数据挖掘大数据执行引擎数据密集型计算大规模数据处理机器学习
结项摘要

Due to the ubiquity of spatial data applications and the large amounts of spatial data that these applications generate and process, there is a pressing need for scalable spatial query processing and machine learning. In this work, we present new techniques for spatial query processing and optimization in an in-memory and distributed setup to address scalability. More specifically, we introduce new techniques for handling query skew, which is common in practice, and optimize communication costs accordingly. We propose a distributed query optimizer that use a new cost model to optimize the cost of spatial query processing. The scheduler and query optimizer generate query execution plans that minimize the effect of query skew. The query scheduler employs new spatial indexing techniques based on bitmap filters to forward queries to the appropriate local nodes. Each local computation node is responsible for optimizing and selecting its best local query execution plan based on the indexes and the nature of the spatial queries in that node. We also build a spatial data machine learning systems based on the built spatial query processing framework, the data processing pipeline combines the machine learning and query processing gives more opportunities to reduce the memory usage and runtime of the spatial data processing. All the proposed spatial query processing and optimization techniques are prototyped inside Spark, a distributed memory-based computation system.

空间数据是指带有空间位置信息特征的数据。大规模空间数据的查询和分析,在地理信息系统,城市计算,基于位置的推荐系统,无人驾驶等各个应用场景中,起着基础性的作用。针对现有的空间数据处理平台处理海量数据时存在的高延迟,低吞吐率的问题,我们建立一个基于内存的分布式空间数据计算系统。主要拟开展研究:基于SQL的空间查询计划的优化,空间数据的分布式内存索引,空间查询在计算节点之间的倾斜和冗余传输,分布式内存的动态缓存等。其次,我们将空间数据的机器学习算法 (如聚类和分类算法)和空间数据查询系统相结合,构建统一的空间大数据处理流程,进行计算的全流程的优化,减少相应的内存和CPU开销。最后本项目将提供空间数据查询和分析的SQL接口,以及基于WebGIS空间数据展示。本项目将全部开源,为近一步的空间数据的研究和应用打下坚实的基础。

项目摘要

空间数据是指带有空间位置信息特征的数据。大规模空间数据的查询和分析,在地理信息系统,城市计算,基于位置的推荐系统,无人驾驶等各个应用场景中,起着基础性的作用。(1)针对现有的空间数据处理平台处理海量数据时存在的高延迟,低吞吐率的问题,我们建立一个基于内存的分布式空间数据计算系统。主要拟开展研究:基于SQL的空间查询计划的优化,空间数据的分布式内存索引,空间查询在计算节点之间的倾斜和冗余传输,分布式内存的动态缓存等。(2)其次,我们将空间数据的机器学习算法 (如聚类和分类算法)和空间数据查询系统相结合,构建统一的空间大数据处理流程,进行计算的全流程的优化,减少相应的内存和CPU开销。(3) 同时针对大数据处理过程的数据血缘管理,我们建立一个数据血缘管理的系统,来跟踪保护数据的全生命周期的质量和权限管理. (4) 最后在大数据处理的流程中,我们建立一个云原生的工作流调度系统,支持云端的大数据工作流数据处理和编排。最后,我们实现了空间大数据处理系统LocationSpark, 空间大数据机器学习系统MatFast, 空间大数据数据血缘管理系统Spark-Atlas, 大数据处理工作流调度系统Couler,同时在大数据可视化方面,提出了2个可视化交互算法,相关系统顺利开源,在开源社区取得一定的国际影响力,相关论文发表到ICDE,IEEE TVGG, IEEE VAST 等会议和杂志。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
3

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

面向云工作流安全的任务调度方法

面向云工作流安全的任务调度方法

DOI:10.7544/issn1000-1239.2018.20170425
发表时间:2018

唐明洁的其他基金

相似国自然基金

1

基于机器学习的VMM内存映像老化机理研究

批准号:61070006
批准年份:2010
负责人:宋擒豹
学科分类:F0203
资助金额:35.00
项目类别:面上项目
2

面向大规模分布式内存的非结构化数据管理系统关键技术研究

批准号:61300003
批准年份:2013
负责人:陈薇
学科分类:F0202
资助金额:23.00
项目类别:青年科学基金项目
3

集群环境下基于内存的高性能数据管理与分析

批准号:61332006
批准年份:2013
负责人:周傲英
学科分类:F0202
资助金额:300.00
项目类别:重点项目
4

大规模机器学习的在线方法与实现

批准号:61572017
批准年份:2015
负责人:张志华
学科分类:F0605
资助金额:55.00
项目类别:面上项目