Sense disambiguation and knowledge acquisition are among the most fundamental problems and named entities are objects that are very actively studied in natural language processing. This project studies methods of named entity ambiguation and knowledge acquisition in Chinese, in the purpose of exploring an effective way of understanding named entities. The main research goals include: (1) to learn a framework to represent knowledge about entities from multi-sourse online encyclopedia.The framework consists of basic structure of entities and the enhanced structures to flexibly represent different categories of entities; (2) to propose methods of entity knowledge acquisition and knowledge fusion: to mine entity element representation patterns in Chinese and synonym transformation rules from online wikis; to acquire entities knowledge from multiple-source data; to fuse the knowledge by using co-reference relation in and across the documents; (3) to propose methods of named entities disambiguation based on entity knowledge base; to understand named entities by using deep learning models to link a mention with entity appeared in the knowledge base; (4) to explore methods of named entity disambiguation based on multi-source data and to augment the entity knowlegde by mining multi-source data when its description in knowledge base is not complete.
歧义消解与知识获取是自然语言处理研究中最基础的问题;而命名实体则是语言信息处理中广受关注的对象。本项目以汉语的命名实体为对象,研究实体歧义消解与知识获取的方法,为命名实体的理解探索一条有效的途径。主要研究内容包括:(1)构建实体知识表示的框架。研究从多源网络百科中自动归纳实体的基本知识结构和扩展知识结构,并通过扩展知识结构适应对不同实体类的描述;(2)提出实体知识获取与融合的方法。通过挖掘网络百科中的文本知识表示模式以及同义变换规律,从多源数据中获取实体知识;通过文本内和文本间实体共指关系,实现知识融合;(3)提出基于实体知识库的命名实体消歧方法。通过深层学习模型构建文本中的命名实体与实体知识库中对应实体的语义关联,实现对命名实体的理解;(4)探索基于多数据源的命名实体消歧方法。在实体知识不完整情况下,通过从多源数据中获取实体信息实现歧义消解,并提炼信息完善对实体知识的描述。
本项目围绕命名实体歧义消解以及实体知识获取方法开展研究。四年来的研究主要归纳为如下三个方面:(1)对命名实体挖掘开展了深入研究,利用大规模url与title库进行开放领域的实体挖掘,将命名实体进行分类收集。命名实体挖掘是构建实体知识库的基础性工作。(2)研究了实体关系抽取的多种方法。实体知识通常指实体关系形成的三元组。面对人工构建实体知识库存在诸多受限的问题,项目组研究了带噪音聚类的远监督实体关系抽取方法以及基于深度学习的实体关系自动抽取方法,以获取实体知识。所提方法在多个数据集上取得了好的测试效果。(3)研究了实体歧义消解的方法。针对有知识库的情况,研究了命名实体歧义消解问题;面对无知识库的跨文本同名实体情况,研究了跨文本的命名实体同名共指问题;此外,还研究了无知识库情况下,文本内的实体同指,主要是零指代消歧问题。.项目组基本按预定的计划开展研究,达到了预期的目标,完成了预定的任务。在方法研究、技术开发、资源建设、系统设计等方面取得了一系列成果。(1) 在理论与方法方面进行了一系列探索和研究。在国内外学术会议和期刊上发表了研究论文29篇,其中,期刊论文7篇,在 ACL,AAAI,IJCAI,SIGIR,EMNLP,COLING,CIKM等高水平的国际会议上发表论文 14 篇;另外,申请专利2项。(2)形成了一定规模的语料库,构建了实体知识库。(3)研究中所取得成果的一部分已经在与IT公司合作中得到应用,有些正在实施之中。特别是,在与企业合作的基础上,于2016年与合作企业共同申请了北京市科委的科技计划项目。(4)在项目实施期间,同国内外同行进行了大量的学术交流。包括:哈萨克斯坦欧亚民族大学人工智能研究所,都柏林城市大学,香港城市大学,中山大学,广东外语外贸大学,桂林电子科技大学,谷歌中国研究中心等。应邀在学术会议或企业做学术报告。(5)培养了10名研究生,包括博士研究生4名,硕士研究生6名。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于多模态信息特征融合的犯罪预测算法研究
基于细粒度词表示的命名实体识别研究
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
服务经济时代新动能将由技术和服务共同驱动
基于Web知识挖掘与融合的命名实体消歧技术研究
维语实体指代消歧关键技术研究
特定领域实体关系获取与实体链接
基于自消歧模式的语法知识自动获取技术研究