构建面向Web的、以实体为中心的知识库的关键技术研究

基本信息

批准号：61272088

项目类别：面上项目

资助金额：80.00

负责人：王建勇

学科分类：

依托单位：清华大学

批准年份：2012

结题年份：2016

起止时间：2013-01-01 - 2016-12-31

项目状态：已结题

项目参与者：沈玮,冯伟,张伟,孙国栋,蒲旭,任宏达,宋振华

关键词：

数据库关系索引结构实体

结项摘要

With the rapid development of the Internet and the sharp rise of online data, discovering valuable information from the massive data becomes increasingly difficult. Meanwhile, with the application of the technologies from the fields of database, natural language processing, and data mining to information retrieval, it becomes feasible for keyword search to evolve to intelligent search. One of the most important steps in Web intelligent search service is to build a solid Web-based knowledge base, which turns out to be the aim of this project. With the rich Internet data, we will mainly study in this project some key techniques regarding entity and relationship extraction, entity name disambiguation, entity linking with knowledge bases, as well as the storage and index system for an entity-centric knowledge base. Specifically, we intend to explore the following three research problems. First, based on the large-scale Web data and existing knowledge bases, we will design some methods for accurately extracting entities, disambiguating entity names, and linking entities with existing knowledge bases. Second, we plan to build the entity-relation model based on all the entities and entity attributes. Third, we will develop an index scheme for the entity-centric knowledge base to support fast queries and dynamic updates. Finally, we construct a real entity-centric knowledge base system to verify the correctness and feasibility, which forms the solid foundations for the next-generation intelligent search system.

随着互联网的迅速发展及在线数据的急剧上升，用户从海量数据中搜索有价值的信息变得越来越困难，并且随着数据库、自然语言处理和数据挖掘等领域的相关技术不断应用到信息检索当中，搜索引擎从关键字搜索发展到智能搜索成为可能。而实现智能搜索的一项关键任务就是基于Web的实体知识库的构建。本项目基于丰富的网络资源，以建立实体知识库来为Web智能搜索服务作为基本应用目标，以实体及关系提取、实体名字排歧、实体知识库链接整合、以及实体知识库索引等关键技术作为研究重点，拟解决以下三类研究问题：第一，基于大规模Web网页以及现有知识库，实现实体的准确提取，设计实体名字排歧方法，进行实体与知识库链接、整合；第二，对实体及其相关属性进行建模，提取实体关系；第三，开展实体知识库索引技术研究，以支持快速查询和动态更新。最后将建立一个基于实体的知识库系统，以验证成果的正确性和可行性，为开发下一代智能搜索系统奠定基础。

项目摘要

本项目基于丰富的网络资源，以建立实体知识库来为Web智能搜索服务作为基本应用目标，以实体及关系提取、实体名字排歧、实体知识库链接整合、以及实体知识库索引等关键技术作为研究重点，重点解决了以下四类研究问题：第一，基于大规模Web 网页以及现有知识库，设计实体名字排歧算法，进行实体与知识库链接、整合；第二，对实体及其相关属性进行建模，提取实体语义关系；第三，开展实体知识库索引技术研究，以支持快速查询和动态更新；第四，将所提部分技术用于构建和扩展领域知识库系统（如餐饮和电影），并探讨实体知识库系统的某些潜在应用（如个性化推荐系统、主题发现等），以验证成果的正确性和可行性。.本项目在实体链接与消歧领域，先后设计了面向面向社交媒体数据的实体链接算法KAURI、面向异构网络的实体链接算法SHINE、实体别名发现算法GRIAS。此外，我们还对现有的实体链接方法进行了全方位的总结，相应综述文献发表在国际期刊IEEE TKDE。上述研究成果得到了包括语义Web创始人之一James A. Hendler教授和德国科学院和欧洲科学院院士Gerhard Weikum教授等在内的国际著名学者引用和肯定。在语义关系抽取领域我们提出了面向低冗余度数据的语义关系抽取框架REACTOR。在实体知识库索引技术领域，我们提出了一个称为AWETO的增量式RDF存储系统。在其他实体知识库相关研究领域，本项目在个性化推荐系统和文本聚类等领域提出了多个高效的算法，并得到了美国斯隆研究奖得主、康乃尔大学Johannes Gehrke教授、美国总统青年研究奖得主美国宾州大学Lyle Ungar教授在内的国际著名学者的引用和肯定。本项目在国际重要期刊和会议共发表论文22篇，其中CCF A类期刊/会议论文14篇。本项目培养博士生4人、硕士生3人，其中已毕业的3名博士生有3人次获得清华大学优秀博士论文奖、2人次入选北京市优秀毕业生、1人次获得中国人工智能学会优秀博士论文奖。项目负责人受邀在国际会议做特邀报告1次并当选IEEE Fellow。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.15957/j.cnki.jjdl.2016.12.031

发表时间：2016

DOI：10.3969/j.issn.1003-0077.2018.11.009

发表时间：2018

DOI：10.19596/j.cnki.1001-246x.8419

发表时间：2022

DOI：10.3969/j.issn.1674-0858.2020.04.30

发表时间：2020

DOI：10.12202/j.0476-0301.2020285

发表时间：2021

王建勇的其他基金

批准号：61906127

批准年份：2019

资助金额：21.00

项目类别：青年科学基金项目

批准号：81801271

批准年份：2018

资助金额：21.00

项目类别：青年科学基金项目

批准号：60573061

批准年份：2005

资助金额：25.00

项目类别：面上项目

批准号：21801145

批准年份：2018

资助金额：25.00

项目类别：青年科学基金项目

批准号：60873171

批准年份：2008

资助金额：28.00

项目类别：面上项目

批准号：11605102

批准年份：2016

资助金额：20.00

项目类别：青年科学基金项目

批准号：61532010

批准年份：2015

资助金额：290.00

项目类别：重点项目

相似国自然基金

面向知识库的实体链接技术研究

批准号：61502253

批准年份：2015

负责人：沈玮

学科分类：F0202

资助金额：21.00

项目类别：青年科学基金项目

面向Web的命名实体检测与跟踪关键技术研究

批准号：60503070

批准年份：2005

负责人：周雅倩

学科分类：F0211

资助金额：22.00

项目类别：青年科学基金项目

面向Deep Web的大规模知识库自动构建方法研究

批准号：61170020

批准年份：2011

负责人：崔志明

学科分类：F0202

资助金额：57.00

项目类别：面上项目

语义Web知识库补全关键技术研究

批准号：61772079

批准年份：2017

负责人：王志春

学科分类：F0607

资助金额：15.00

项目类别：面上项目

构建面向Web的、以实体为中心的知识库的关键技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

演化经济地理学视角下的产业结构演替与分叉研究评述

基于细粒度词表示的命名实体识别研究

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

王建勇的其他基金

神经网络中的连接机制研究

小G蛋白RIT2对胞内α-突触核蛋白水平的调控作用及其对帕金森病发病的影响

频繁子图的高效挖掘算法及其应用研究

萘酐-咔唑“杂交”的多位点可修饰双光子荧光染料的设计、合成及应用研究

面向复杂数据的生成器模式发现及其应用研究

非线性演化方程的孤子-椭圆周期波解及其准孤立子行为研究

大规模关联数据管理的关键技术研究

相似国自然基金