基于图模型的海量非结构化数据查询语言及其优化实现

基本信息
批准号:61170086
项目类别:面上项目
资助金额:57.00
负责人:钱卫宁
学科分类:
依托单位:华东师范大学
批准年份:2011
结题年份:2015
起止时间:2012-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:张召,赵斌,王义,张灿,祝海通,李春生,马海欣
关键词:
查询语言查询优化数据密集型计算非结构化数据海量数据管理
结项摘要

海量非结构化数据的管理是新型数据密集型应用中碰到的重要问题,图模型是对非结构数据进行建模的一种重要工具。本项目旨在针对Web数据管理、科学数据管理等应用对于海量非结构化数据管理的需求,系统研究基于图模型的非结构化数据查询语言的形式化定义和语义基础、灵活/可扩展的查询语言设计、针对集群环境的查询计划表示与代价模型,以及高效的适应性分布式查询优化算法。项目将针对应用中查询需求多样、数据量大、应用环境为大规模集群的特点,重点研究基于图模型的查询语言的形式化描述、环境相关的查询计划表示和代价模型,集群环境中无集中控制的分布式代价估计、代价维护和适应性查询处理和优化技术,并通过具有实际应用背景的原型系统验证所研究方法的有效性。项目的研究工作基于项目组成员多年来对于分布式和P2P系统中的查询处理、Web数据管理、集群环境中的数据存储与索引研究工作,是现有研究的自然延续。项目目标明确,可行性较强。

项目摘要

海量非结构化数据的管理是新型数据密集型应用中碰到的重要问题,图模型是对非结构数据进行建模的一种重要工具。本项目针对 Web 数据管理、科学数据管理等应用对于海量非结构化数据管理的需求,系统研究基于图模型的非结构化数据查询语言的形式化定义和语义基础、灵活/可扩展的查询语言设计、针对集群环境的查询计划表示与代价模型,以及高效的适应性分布式查询优化算法。项目针对应用中查询需求多样、数据量大、应用环境为大规模集群的特点,重点研究基于图模型的查询语言的形式化描述、环境相关的查询计划表示和执行,集群环境中的分布式查询处理和优化技术,并通过具有实际应用背景的原型系统验证所研究方法的有效性。..经过四年的研发,项目课题按照原计划进行。项目以社交媒体这一典型的大规模图数据为切入点,形式化地定义了图数据模型下社交流(social stream)查询语言SSQL;结合社交网络应用的图数据查询需求,制定了社交网络分析型查询基准评测,以公开、可测量的形式,描述了图模型数据查询需求;在基准评测中,对图模式匹配、时序查询、热点查询等典型查询模式进行了定义,同时定义了这些典型查询模式的查询计划表示方法;在制定基准评测时,对影响图模型数据的统计特征,特别是其中显著影响查询性能的统计特征进行了定义和分析,同时研究了分布式环境下统计特征计算和估计方法;项目着重研究了社交数据流这一典型图模型数据的查询处理和优化技术,包括社交数据流统计值查询处理、图结构数据的压缩以及基于压缩图的查询处理技术、社交数据流的自适应取样等;项目组收集了海量社交媒体数据,基于这些数据,利用课题所研发的技术,课题组设计和开发了网上集群行为资源库,展示和验证了课题所研发的图模型数据查询处理和优化技术的有效性。..项目组成员在重要学术会议和重要学术期刊上发表18篇高质量的学术论文(包括15篇研究论文和3篇演示论文),申请发明专利6项,申请并获得软件著作权6项,获得教育部科技进步二等奖1项(第5获奖人),培养博士5人(2人毕业),硕士5人(毕业5人)。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
3

一种改进的多目标正余弦优化算法

一种改进的多目标正余弦优化算法

DOI:
发表时间:2019
4

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021
5

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021

钱卫宁的其他基金

批准号:61432006
批准年份:2014
资助金额:350.00
项目类别:重点项目
批准号:60673134
批准年份:2006
资助金额:27.00
项目类别:面上项目
批准号:61070051
批准年份:2010
资助金额:11.00
项目类别:面上项目
批准号:60503034
批准年份:2005
资助金额:5.00
项目类别:青年科学基金项目
批准号:61672232
批准年份:2016
资助金额:16.00
项目类别:面上项目

相似国自然基金

1

基于图数据库理论的海量RDF数据存储和查询方法研究

批准号:61003009
批准年份:2010
负责人:邹磊
学科分类:F0202
资助金额:19.00
项目类别:青年科学基金项目
2

基于非结构化张量的海量地理时空数据并行计算模型

批准号:41571380
批准年份:2015
负责人:胡勇
学科分类:D0114
资助金额:80.00
项目类别:面上项目
3

约束数据库的模式设计、查询语言和实现技术

批准号:69773012
批准年份:1997
负责人:施伯乐
学科分类:F0202
资助金额:12.00
项目类别:面上项目
4

基于pay-as-you-go模式的海量RDF图数据的关键词查询

批准号:61862010
批准年份:2018
负责人:潘颖
学科分类:F0211
资助金额:40.00
项目类别:地区科学基金项目