Knowledge bases are increasingly important for information retrieval and question answering. As the coverage of existing knowledge bases is limited, it is quite necessary and meaningful to populate the existing knowledge bases. Entity linking is inherently considered as an important subtask for knowledge base population. Entity linking is the task to link the entity mentions in Web data with their corresponding entities in a knowledge base. Potential applications include text understanding, information extraction, and content analysis. However, this task is challenging as the entity name is ambiguous and the data on the Web is various and heterogeneous. This project studies the key techniques for entity linking with a knowledge base in order to overcome the deficiency of existing methods. The specific research content contains: (1) we investigate the hybrid framework that combines crowdsourcing with the entity linking algorithm to increase the entity linking accuracy via leveraging the crowd artificial intelligence; (2) we study the highly efficient entity linking algorithm to increase the linking efficiency for the large-scale application; (3) we study the general domain-specific entity linking framework according to the characteristics of domain-specific knowledge bases, which overcomes the deficiency of existing approaches that just link with general-purpose knowledge bases.
知识库在信息检索、问答系统等领域发挥着越来越重要的作用,由于现有知识库的覆盖面比较有限,对现有知识库进行扩展就是一项非常必要且有意义的工作。实体链接被认为是知识库扩展的一项重要子任务。实体链接是指为万维网数据中出现的实体名字找到其在知识库中对应实体的过程。实体链接还有助于文本理解、信息抽取、内容分析等问题的解决。然而由于实体名字的歧义性以及万维网上数据的多样性和异构性,实体链接具有很大的挑战。本项目研究面向知识库的实体链接关键技术,以弥补现有方法的部分问题和不足,具体研究内容包括: (1)利用群体人工智能,研究结合众包和实体链接算法的混合框架,改善实体链接的质量; (2)面向大规模应用,研究高效的实体链接算法,提高实体链接的效率;(3)根据领域知识库的结构特点,研究普适的面向领域知识库的实体链接方法,弥补当前算法只能链接到通用知识库的不足。
知识库在信息检索、问答系统等领域发挥着越来越重要的作用,由于现有知识库的覆盖面比较有限,对现有知识库进行扩充很有必要且有意义。本项目基于万维网丰富的网页、微博和表格数据资源,以知识库扩充为目标,对其中的关键问题进行了研究。具体来说,项目组根据领域知识库的结构特点,首次研究面向领域知识库的文档实体链接问题,为网页文档中出现的实体名字找到它们在领域知识库中的对应实体,弥补当前实体链接方法只能链接到通用知识库的不足,相关工作发表在IEEE TKDE 2018和CIKM 2016。基于提及知识库中实体的微博集合,提出一个无监督式框架,利用其中包含的丰富地理位置信息来预测实体所在的地理位置,实现对知识库中实体地理位置属性扩充的目的,相关工作发表在ICDE 2018。利用万维网结构化表格数据对领域知识库进行扩充,提出一个概率模型提取表格中实体之间的二元语义关系,并将其添加进领域知识库,相关工作发表在ICDM 2015。提出一个无监督式混合框架,从低冗余文档数据中自动抽取出实体之间的语义关系,研究成果发表于国际期刊IJSWIS。本项目在国际重要期刊和会议发表论文5篇,其中CCF A类论文2篇,CCF B类论文2篇。本项目培养博士生1人、硕士生3人。项目负责人获得了ACM中国新星奖提名奖(2018年)、CCF-Intel青年学者提升计划(2017年)和中国人工智能学会优秀博士论文奖(2016年)。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
基于细粒度词表示的命名实体识别研究
基于关系对齐的汉语虚词抽象语义表示与分析
基于卷积神经网络的链接表示及预测方法
计及调节弹性差异化的产消群价格型需求响应机制
特定领域实体关系获取与实体链接
构建面向Web的、以实体为中心的知识库的关键技术研究
基于大众参与的语义Web实体链接方法研究
面向大数据的实体解析方法及关键技术研究