As the principles of Linked Data have been widely accepted, there are an increasing number of datasets linked into Linked Data. The datasets linked into Linked Data include the RDF datasets like DBPedia which can be fully downloaded and managed, the RDF datasets like FOAF which cannot be fully downloaded and managed and the relational datasets like IMDB. The complex distributed data environment over Linked Data poses a great challenge for efficiently query processing. Therefore, we study graph-based distributed query processing over Linked Data. First, we study SPARK-based query processing over RDF datasets which can be fully downloaded and managed, and the graph-based query decomposition and optimization techniques that we plan to study can reduce the number of iterations during the query processing in SPARK. We also study graph exploration-based query processing over RDF datasets which cannot be fully downloaded and managed, and we will utilize the structural information to avoid redundant computation. Last, for the relational datasets in Linked Data, we study graph-based query rewriting and optimization to reduce the number of intermediate results. Our research can propose theories and techniques for query processing over Linked Data, and significantly promote the development of Linked Data.
随着关联数据(Linked Data)理念被广泛接受,大量数据被接入关联数据。这其中既包括如DBPedia的能完全下载与管理的RDF数据,也包括如FOAF的难以完全下载与管理的RDF数据,还有如IMDB的接入关联数据的关系数据。关联数据上如此复杂的分布式数据环境为高效的查询处理提出了挑战。为此,本项目以图理论为基础,研究关联数据上分布式查询处理技术。本项目首先将研究利用最新云计算框架SPARK对能完全下载与管理的RDF数据进行查询处理,拟研究的技术将基于查询的图结构来进行查询分解与优化以降低SPARK运算的迭代次数。本项目还将研究利用图探索技术来查询难以完全下载与管理的RDF数据,此研究能利用图结构信息来避免重复计算。最后,对接入关联数据的关系数据,本项目将研究基于图结构的查询重写与优化策略以减少中间结果。本项目的研究将为关联数据上查询处理提供理论方法和技术,对推动关联数据发展有重要意义。
随着关联数据(Linked Data)理念被广泛接受,大量数据被接入关联数据。这其中既包括能完全下载与管理的RDF数据,也包括难以完全下载与管理的RDF数据,还有整合了关系数据的RDF数据。关联数据上如此复杂的分布式数据环境为高效的查询处理提出了挑战。为此,本项目以图理论为基础,研究关联数据上分布式查询处理技术。本项目首先对能完全下载与管理的RDF数据研究了基于查询日志进行数据划分的分布式RDF数据管理技术。针对难以完全下载与管理的RDF数据,本研究提出了基于局部计算的分布式RDF数据管理技术。最后,对整合了关系数据的RDF数据,本项目研究了联邦型分布式RDF数据库上的查询与检索技术。本项目的研究将为关联数据上查询处理提供理论方法和技术,对推动关联数据发展有重要意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
基于分形维数和支持向量机的串联电弧故障诊断方法
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
图模型大数据的分布式查询处理关键技术研究
基于分布式流处理的动态图在线查询技术研究
基于大规模图数据的可达性查询处理技术
基于分布式计算框架的大图数据描述性查询关键技术研究