云计算环境下基于图模型的海量RDF数据管理关键技术研究

基本信息
批准号:61502504
项目类别:青年科学基金项目
资助金额:22.00
负责人:卢卫
学科分类:
依托单位:中国人民大学
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:王琰,陈峻,李博放,康冠男,王静茹,林江毅
关键词:
语义网图划分分布式图计算云计算RDF数据
结项摘要

The tremendous commercial success in the internet industry inspires the whole society to actively explore cloud computing to upgrade their business and analysis systems. In this context, we take the massive RDF data as the research object, which is of widespread use in the internet and its amount is still growing exponentially. We explore how to utilize the distributed graph computing abstraction to effectively process RDF queries under the cloud computing environment, including (1) how to build a real-time RDF data query processing system by taking RDF data as research object in the distributed environment; (2) how to properly partition the RDF data under different data distributions as well as self-adaptively migrate the RDF data so that the system can provide high scalability and efficiency. With respect to these two scientific issues, we will carry out the research from the following five aspects: study on real-time distributed graph computing framework in the Cloud; study on distributed graph matching optimization techniques for processing RDF data queries; study on graph partitioning algorithms based on degree distributions; study on self-adaptive data migration algorithms based on different query distribution; prototype system development and demonstration; The research over all kinds of key techniques and prototypes, helps deepen the understanding of RDF data and grasp the key techniques of managing massive RDF data in the Cloud, and provides a solid foundation for carrying out tremendous effect of research over semantic web in the future.

云计算技术在互联网行业的巨大商业成功,启发了社会各界积极探索借助该技术来升级其业务和分析系统。在此背景下,本课题以互联网上普遍使用并以指数速度增长的海量RDF数据为研究对象,探索如何在云计算平台下使用分布式图计算框架来高效地管理RDF数据的关键技术:以SPARQL查询为对象,探索如何在该框架下构建实时的SPARQL查询处理系统,和以RDF数据为对象,研究如何在该框架下设计最优数据划分和自适应迁移算法。围绕这两个科学问题,本课题将从五个方面开展研究: 云计算环境下支持实时性处理要求的分布式图计算框架;面向SPARQL查询处理的分布式图匹配优化技术;基于图顶点度数分布的图划分算法;基于查询分布的RDF数据自适应迁移算法;原型系统研制和应用示范。通过对各项核心技术和原型系统的研究,深化对海量RDF数据特性的理解,掌握云平台上海量RDF数据管理的关键技术,为未来大规模开展语义网应用研究奠定基础。

项目摘要

云计算技术在互联网行业的巨大商业成功,启发了社会各界积极探索借助该技术来升级其业务和分析系统。在此背景下,本课题以互联网上普遍使用并以指数速度增长的海量图数据为研究对象,探索如何在云计算平台下使用分布式图计算框架来高效地管理和分析图数据的关键技术。本项目的主要研究内容包括:(1)围绕分布式图计算框架,从数据的划分、迁移、研究如何高效、高可靠地支持分布式图计算;(2)基于分布式图计算框架,本项目研究如何使用该框架支持高效的数据挖掘算法;(3)图数据管理中,文本、数值等数据仍然普遍并数据质量层次不齐,支持快速的近似查询仍是亟待解决的一个问题;(4)关系数据仍是主流,但图数据管理是一种趋势,支持关系数据到图数据的自动转化工具非常重要。本项目的代表性成果:(1)提出一套基于检查点+日志的快速容错方案,从数据的划分、迁移、压缩三个方面进行优化,用以加快“以顶点为中心”的分布式图处理系统的错误恢复速度。实验表明,在运行在40个计算节点的分布式图处理系统上,本项目提出的基于图数据自适应迁移算法、基于数据特征的图划分最优算法的故障恢复策略,能比现有的工作平均快32倍。相关论文发表在数据库顶级会议VLDB上(2015年)和被顶级期刊TKDE录用(2018.6);(2)提出了一款基于RDBMS的插件式近似查询工具MSQL+,可以很方便地集成到图数据库中,用于支持快速的属性图中属性值的近似查询。MSQL+通过构建索引、查询处理、优化技术,实现了比现有基于SQL方法快2个数量级的效率。MSQL+能良好地支持分布式系统,在实际生产系统中,MSQL+以腾讯公司的分布式数据库TDSQL为依托,高效实现近似查询。相关工作发表在数据库顶级期刊VLDB journal (2017)和顶级会议VLDB上(2018年);(3)设计了一个从关系数据到图数据的交互式数据迁移工具,相关成果已获得软著证书。(4)在分布式图处理系统上实现了频繁子图挖掘算法,在40个节点的集群上测试,性能比现有方法提升了2.2倍,相关论文发表在CCF B类论文DASFAA 2018和KAIS上.

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
3

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
4

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021
5

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021

卢卫的其他基金

相似国自然基金

1

云计算环境下海量RDF数据管理系统核心技术研究

批准号:61170010
批准年份:2011
负责人:杜小勇
学科分类:F0202
资助金额:57.00
项目类别:面上项目
2

云计算环境下海量XML数据管理关键技术研究

批准号:61272181
批准年份:2012
负责人:赵相国
学科分类:F0202
资助金额:81.00
项目类别:面上项目
3

基于云计算的海量网络数据管理与搜索技术

批准号:61073189
批准年份:2010
负责人:雷景生
学科分类:F0207
资助金额:33.00
项目类别:面上项目
4

基于云计算的海量数据挖掘关键技术研究

批准号:61035004
批准年份:2010
负责人:李涓子
学科分类:F0305
资助金额:230.00
项目类别:重点项目