Knowledge graph is the basis of artificial intelligence. Feature representation is a key point which affects the quality of the constructed knowledge graph. Traditional feature representation methods have following limitations: 1) word-based features only represent limited information and can't express syntactic and semantic information; 2) feature design process relies on domain experts, and is time consuming. In this proposal we will research on the construction of knowledge graph based on word embeddings, which has the following advantages: 1) word embeddings can express much more information than traditional word-based features; 2) features represented by word embeddings are semantically computable and can be learned through an automatic feature learning process. This proposal focuses on the feature representation of basic elements of knowledge graph, such as entity and relation, and the automatic construction method of knowledge graph based on word embeddings and Deep Neural Networks. For feature representation, we propose a method to integrate prior linguistic knowledge to improve the quality of word embeddings. Word clustering is proposed based on word embeddings and is introduced to state-of-the-art methods of knowledge graph. Finally but most important, we propose two new Deep Neural Networks for the sub-task of knowledge graph construction.
大规模知识图谱的构建是计算机实现智能推理的基础。特征表示是制约知识图谱构建效果的一个很重要的因素,传统特征表示方法存在特征表意能力差、缺乏语义可计算性、特征设计过程复杂等问题,而基于深度学习的词向量特征表示方法具有丰富的表意能力,是一种全自动的特征学习方法。本课题拟基于词向量学习,对知识图谱的基本元素(如命名实体、关系)形成全新的特征表示,进而研究基于词向量特征和深度神经网络的知识图谱的自动化构建方法,使得大规模知识图谱的普遍应用成为现实。本课题在词向量学习的方法上,通过对深度神经网络结构的调整和引入先验的语言学知识,解决词向量学习的效率、效果问题;在知识图谱各子任务上,一方面在原有算法的基础上,引入基于词向量的词聚类特征,并将该特征与原特征进行有效的融合;另一方面,提出了面向知识图谱的深度神经网络结构设计方法,在此基础上,提出全新的基于词向量的实体、关系识别算法。
本项目在自然语言文本元素的向量表示学习算法、基于词向量表示和深度网络的命名实体识别算法和关系抽取算法三方面展开了研究,形成了相关问题的理论和算法。1)如何获得高质量的词向量是知识获取中的基本问题,也是基于词向量进行知识图谱构建取得成功的关键。我们利用更加丰富的特征,构建了优化的词向量学习算法,并研究了不同特征对构建具有不同性质的词向量的影响,以及对各类下游任务的不同影响。2)对于更长语言片段如句子、篇章的向量表示,目前主流的模型是通过多层的神经网络抽取特征并得到文本向量。这些方法存在模型复杂、参数空间巨大等缺点。我们提出了神经词袋模型,它简洁、高效,在很多数据集上,神经词袋模型可以取得复杂神经网络所能达到的效果甚至更好的结果。3)命名实体识别是知识图谱构建中的重要子任务。我们开发了一个在线序列标注平台,将主动学习引入到序列标注平台之中,提高样本标注效率,依靠多任务学习技术,将复杂命名实体识别任务拆分为独立的子任务,并和分词、词性标注多个任务进行联合循环训练,可生成具有更好性能的模型。4)关系抽取是识别出一个语句中的两个实体之间的语义关系,是知识图谱构建的关键子任务。我们使用两个双向循环神经网络分别对实体周边平铺式局部上下文和实体对在依赖树上的最短依赖路径进行建模,用于抽取实体局部上下文特征和依赖树上的依赖关系特征,这两种特征能够弥补彼此的不足,并取得了显著的效果。5)在数据集构建方面,我们对中文词法与语义推理问题进行研究,探索汉语中特有的词义、语法推理方式,提出了68种中文词法关系、28种语义推理关系,并基于此构建了一个中文类比推理数据集CA8,它包含了 17813 个类比问题,覆盖了综合的词法和语义关联。6)项目的主要成果发表于ACL、EMNLP、AAAI、ECAI、COLING、NAACL、ICWS等国际顶级会议和国际期刊上。本项目开发的核心算法均已在Github开源平台上发布。我们在2018年5月在Github发布的预训练中文词向量资源以及中文词语类比推理数据集到目前为止共获得了3769个星。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于LASSO-SVMR模型城市生活需水量的预测
基于细粒度词表示的命名实体识别研究
基于分形维数和支持向量机的串联电弧故障诊断方法
水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应
服务经济时代新动能将由技术和服务共同驱动
基于词向量的藏语实体知识抽取方法研究
基于表示学习的知识图谱近似查询方法研究
大规模知识图谱的分布式表示学习、知识获取与推理应用
时空知识图谱的表示模型与计算方法研究