With the rapid development of Semantic Web, especially the evolution of the Linking Open Data (LOD) project, billions of semantic data in form of RDF and its extensions have been published and shared. Among them, a large number of RDF data, which are associated with annotations such as temporal, provenances, confidences and fuzzy values, results in a huge annotated semantic knowledge base. The annotated semantic knowledge has a higher complexity than that of the original RDF data and thus degrades the SPARQL querying performance. Moreover, the current SPARQL query processing and optimization technologies for RDF data without annotations cannot be directly applied to the annotated semantic knowledge. Therefore, this project aims to study efficient querying algorithms specifically for large scale annotated semantic knowledge. First, we study the indexing and querying mechanisms for such knowledge. Then we study the data partitioning issue and the query optimization part of querying large annotated semantic knowledge in a distributed environment. We further study the multi-query optimization in such an environment and we finally provide querying services for real-word annotated RDF data to show the practicality of our methods. The success of this project will provide solid theoretical foundations and technical supports for efficient querying and searching over large scale annotated semantic knowledge.
随着语义Web的迅速发展,特别是链接开放数据项目(Linking Open Data, LOD)的开展,亿万语义结构化数据以RDF及其扩展形式发布和共享。其中,存在大量RDF数据包含额外的注释信息(如时间区间、数据来源、置信度和模糊值等),从而形成了一个庞大的注释语义知识库。 “注释语义知识”加剧了SPARQL查询的复杂度,降低了性能。原有针对一般RDF数据的SPARQL查询处理和优化技术无法直接应用。因此,本项目旨在研究大规模带注释语义知识的高效查询算法来弥补这一空白。首先,研究带注释语义知识的索引机制与查询机制;再次研究分布式环境下大规模带注释语义知识的数据划分和查询优化,进一步研究上述环境下的多查询优化问题,最后在真实世界中大规模带标注数据上部署查询服务来验证其实用性。本项目的研究成功将为带注释语义数据上的高效查询与搜索提供理论基础和技术支持。
语义Web的迅速发展,特别是链接开放数据项目(Linking Open Data, LOD)的开展导致了海量的语义结构化数据以RDF及其扩展形式发布和共享。其中有大量的RDF数据包含了额外的注释信息(如时间区间、数据来源、置信度和模糊值等)。这些庞大的注释语义知识加剧了SPARQL查询的复杂度,降低了其性能。基于此,本项目的主要研究内容为大规模带注释语义知识的高效查询算法,重点研究带注释语义知识的索引机制与查询机制、分布式环境下大规模带注释语义知识的数据划分和查询优化,以及多查询优化问题。项目的研究取得了如下重要结果:(1)从异构社交网站中生成了带注释的RDF数据,以便评测实验的进行。(2)针对带注释的RDF数据的分类和支持情况,完成了评测目标的设计、评测对象的选择以及数据集的生成,最终完成了评测工作,形成了评测报告。(3) 针对带注释的RDF数据,设计了新的存储方案和查询优化方案。针对不同的数据类型,使用分表存储的方式;为了更好地支持关系的查询,分别设计了n元关系存储表和元属性存储表。针对每一种类型的数据都设计了相应的查询接口。为了加快查询速度,建立了九重索引,n元关系索引和元属性索引。(4)调研了目前构建带注释的RDF数据的工作,统计了目前存在的注释种类以及对于这些注释信息可执行的操作子并定义了本课题中所指的带注释的RDF数据的数据结构。(5)针对带注释的RDF数据的分类和支持情况的评测,设计了评测目标、评测对象、数据集,并且完成了查询的设计以及查询的重写工作。在查询设计方面,给出了单注释信息查询、多注释信息查询、嵌套注释信息查询三大类共计15个查询模板,覆盖了可能出现的各类查询方式。综合上述结果,本项目的研究成果不仅能从理论上进一步发展和丰富了语义知识的存储和查询优化的技术,而且可以为许多潜在智能应用提供强大的技术支撑。项目资助发表核心论文9篇。培养博士生2名,均已毕业。硕士生5名,均已毕业。项目投入经费24万元,支出24万元,各项支出基本与预算相符。
{{i.achievement_title}}
数据更新时间:2023-05-31
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化
钢筋混凝土带翼缘剪力墙破坏机理研究
面向大规模图数据的高效结构查询技术研究
面向大规模知识图谱的查询处理关键技术研究
面向大规模、带内容复杂网络的精准语义社团发现研究
面向大规模机器学习的高效优化算法研究