基于关键词的大规模链接数据搜索技术研究

基本信息
批准号:61502095
项目类别:青年科学基金项目
资助金额:20.00
负责人:李慧颖
学科分类:
依托单位:东南大学
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:高志强,张祥,全志斌,季秋,司马强,徐飞飞,李媛媛
关键词:
语义网链接数据语义搜索
结项摘要

Linking Open Data Project has collected more than 50 billions RDF triples, which covers a wide range of different topical domains such as publications, geographic, media, life sciences. How to retrieve information from such a large scale linked data is an important problem in the Sematic Web research field. Usually, user prefers to keyword query rather than SPARQL query, because it is difficult for the user to master the query language syntax and the RDF data schema. While existing Semantic Web search engines can only provide RDF document or entity searching instead of complex information query (such as association query). Our research focuses on the problem of keyword query over large scale linked data. We research the multi-granularity summary model and the index approach for linked data, the query understanding approach, the efficient keyword query approach that can convert keyword query to formal query (representing by schema graph), the approach to rank the schema graphs. The research will help users to make efficient and effective keyword query across the large scale, heterogeneous, linked data.

链接开放数据项目已经汇集了超过50 billions的RDF三元组,主题覆盖出版物、地理、多媒体、生命科学等众多领域。如何帮助用户获取感兴趣的数据和信息是当前语义Web研究领域最关心的问题之一。相比SPARQL查询必须掌握查询语言语法和待查询数据模式,普通用户更适合关键词查询方式。现有语义Web搜索引擎往往仅提供RDF文档或实体的搜索,不支持更复杂的查询需求(如查询多个实体及实体间的关系)。本课题研究基于关键词的大规模链接数据搜索问题:研究多粒度链接数据摘要模型和索引方法;研究关键词查询理解方法;研究高效地将关键词查询转换为结构化查询(用查询图表示)的方法;研究查询图相关性评价问题。最终帮助用户在大规模、异构、互链数据中跨数据源地进行高效和有效的关键词搜索。

项目摘要

项目组就链接数据摘要模型和索引方法、关键词查询理解方法、结构化查询构建方法、结构化查询相关性评价方法进行了深入研究,主要研究成果如下:.提出一种基于树模板的链接数据索引方法。将链接数据图划分成若干D-step树,同时将D-step树中的内容节点和边标签作为索引信息。该索引方法将关键词查询问题转化为字符串匹配问题,能够支持高效的关键词查询方法。.提出一种实体链接方法帮助关键词查询理解。利用实体关联图刻画知识库中实体及实体间的关联,对每个候选实体获得个性化EntityRank向量,通过向量间比较度量语义相似性。使用了锚实体来更准确地度量语义相似性。最后,结合局部特征及全局特征迭代地进行实体链接,实验结果展示了较高的F1值。.在实体链接完成的基础上,对关键词查询进行关系检测构建结构化查询。为了生成更精确的结构化查询,将查询结果类型作为约束条件。通过关键词查询判断查询结果的类型,在结构化查询中增加对查询结果的类型约束。通过卷积神经网络进行关系预测,增加类型约束过滤查询结果,本方法在测试集上的实验展示出较高的平均F1值。.提出了结合语义相似度、字面量相似性、上下文相似性、实体流行度评价候选实体相关性的方法。对于候选查询结果评价方法,针对不同评价指标设计三种候选查询结果的相关性评价方案。实验结果表明,该候选实体的相关性评价方法和查询结果的相关性评价方法具有明显的效果。.总的来说,本项目的研究工作达到了预期的目标。项目组一共发表学术论文8篇,SCI期刊论文1篇,会议论文7篇,其中EI检索论文6篇。同时,项目组已申请专利3项。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021
5

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021

李慧颖的其他基金

批准号:71501165
批准年份:2015
资助金额:18.50
项目类别:青年科学基金项目

相似国自然基金

1

面向大规模图数据的凝聚子图搜索技术研究

批准号:61902184
批准年份:2019
负责人:袁龙
学科分类:F0202
资助金额:27.00
项目类别:青年科学基金项目
2

移动环境中关键词搜索的关键技术研究

批准号:60903056
批准年份:2009
负责人:陆嘉恒
学科分类:F0202
资助金额:19.00
项目类别:青年科学基金项目
3

非合作环境下结构化数据的深层关键词搜索

批准号:61363010
批准年份:2013
负责人:刘喜平
学科分类:F0202
资助金额:45.00
项目类别:地区科学基金项目
4

面向大规模时态图数据的社区搜索关键技术研究

批准号:61772346
批准年份:2017
负责人:李荣华
学科分类:F0202
资助金额:61.00
项目类别:面上项目