基于子图近似匹配的海量知识图谱分布式查询技术研究

基本信息
批准号:61702096
项目类别:青年科学基金项目
资助金额:25.00
负责人:金嘉晖
学科分类:
依托单位:东南大学
批准年份:2017
结题年份:2020
起止时间:2018-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:方效林,张竞慧,沈典,徐祝庆,张欢欢,李云昊,王睿
关键词:
分布式图索引知识图谱分布式图计算云计算技术子图近似匹配
结项摘要

Knowledge graphs, which are massive networks containing real-world entities and the entities’ relationships, are commonly used by the next-generation search engines. The knowledge graphs are massive, incomplete and noisy in nature, so it is quite challenging to effectively and efficiently answer knowledge graph queries. The existing researches mainly focused on the query techniques based on subgraph isomorphism models, which are not readily applied to the massive knowledge graphs. This project studies query models, distributed query algorithms and query platforms for knowledge graph queries. Specifically, it designs effective and efficient query processing techniques for the noisy and massive knowledge graphs. We first propose a query model for knowledge graphs by finding the subgraphs that are most similar to a given query graph; we then design a distributed indexing technique for billion-node knowledge graphs to accelerate query processing; at last, we propose the optimization techniques that are based on a shared-memory technique and a novel graph-computation workflow model, which reduce the querying time in a distributed environment. These proposed techniques would be able to enable the next-generation search engines to support the knowledge graphs queries.

知识图谱是描述现实世界中地点、人物等事物以及事物间联系的关系网络,为下一代搜索引擎提供重要数据支撑。知识图谱具有数据量庞大、信息不完整且噪声数据多的本质特征,故设计高效的知识图谱查询机制是当前的热点问题。然而,现有的查询技术大多基于单机环境和子图精确匹配模型,存在查询结果不完整、算法可扩展性差和查询时间长等问题。本项目从知识图谱查询模型、分布式查询算法、分布式查询执行优化三个层面对知识图谱查询问题展开研究,旨在提供快速高效的新型分布式查询技术。首先,研究基于子图近似匹配的知识图谱查询模型,以屏蔽不完整信息和噪声数据。其次,研究基于轻量级索引的分布式查询算法,达到快速响应查询请求的目的。最后,研究面向复杂查询的分布式图计算执行优化机制,进一步优化分布式知识图谱查询的运行时间。本项目成果将为下一代搜索引擎提供行之有效的解决方案,更可推广到于商业分析、生物信息等诸多领域,具有较高的应用价值。

项目摘要

本项目针对亿级顶点知识图谱的分布式查询优化问题展开研究。首先,研究了亿级节点知识图谱的查询问题,提出子图近似匹配模型,能够在超过10亿顶点的知识图谱上进行大于5个节点的近似查询;其次,在查询模型通用求解框架基础上,从轻量级索引的角度对查询任务进行加速,研究分析了轻量级图索引构建方法和基于索引的查询算法,使知识图谱的查询响应时间控制在10秒内;最后,研究面向复杂查询的分布式图计算执行优化技术,综合考虑数据分布、数据加载速度、系统部署效率和复杂查询执行效率等因素,对分布式查询系统的查询任务进行优化,提出分布式图计算工作流模型,设计了面复杂查询的分布式图计算执行优化策略,分布式系统加速比大于1.5,查询初始化时间小于5秒。基于上述理论研究成果,项目组开发实现了面向知识图谱查询的分布式图计算系统。本研究成果能为大规模知识图谱分布式查询提供一定的理论支持和技术借鉴,同时对 于分布式图计算、分布式大数据处理领域的研究提供有益借鉴,同时对于智慧城市、智慧医疗等领域的语义查询具有积极的参考意义。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

DOI:
发表时间:2018
2

服务经济时代新动能将由技术和服务共同驱动

服务经济时代新动能将由技术和服务共同驱动

DOI:10.19474/j.cnki.10-1156/f.001172
发表时间:2017
3

基于余量谐波平衡的两质点动力学系统振动频率与响应分析

基于余量谐波平衡的两质点动力学系统振动频率与响应分析

DOI:10.6052/1672⁃6553⁃2017⁃059
发表时间:2018
4

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
5

卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比

卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比

DOI:10.13249/j.cnki.sgs.2020.08.003
发表时间:2020

金嘉晖的其他基金

相似国自然基金

1

基于外存的海量知识图谱数据的查询处理

批准号:61602395
批准年份:2016
负责人:张志威
学科分类:F0202
资助金额:20.00
项目类别:青年科学基金项目
2

基于表示学习的知识图谱近似查询方法研究

批准号:61906037
批准年份:2019
负责人:王萌
学科分类:F0607
资助金额:27.00
项目类别:青年科学基金项目
3

海量RDF图数据的分布式存储与查询算法研究

批准号:61602354
批准年份:2016
负责人:李贺
学科分类:F0202
资助金额:21.00
项目类别:青年科学基金项目
4

基于哈希的海量高维数据近似最近邻查询研究

批准号:61472298
批准年份:2014
负责人:崔江涛
学科分类:F0202
资助金额:80.00
项目类别:面上项目