To extract relations among entities from open web is important for semantic search, question answer system, construction of knowledge graph and other applications in intelligent search era. Hence, open relation extraction has become a hot research issue in information extraction domain recently. One of the mostly used methods for open relation extraction is weak-supervised method. However, because existing weak-supervised methods are mostly lack of semantic constraints, they are still difficult to satisfy practical criteria. To address the problem mentioned above, this proposal plans to incorporate some related tools such as deep learning, optimization method and statistical theory to handle the three key problems from the perspective of semantic constraint: (1) How to form a multi-level feature based structured fusion scheme to represent relation, and thus based on the structured pattern representation, we can improve the accuracy of weak-supervised methods. (2) How to build a robust pattern similarity determination mechanism to enhance the recall of weak-supervised methods. (3) How to construct trigger words constrained bootstrapping framework. With this model, we can constrain the relational semantics and suppress semantic drift problem to further improve the accuracy of weak-supervised method. The three key problems to be investigated are basically general problems in information extraction domain, thus, if they are properly solved, corresponding ideas are expected to be applied to other information extraction techniques to improve their performances.
从海量互联网数据中抽取实体间语义关系对语义搜索、问答系统、知识图谱的构建等应用具有重要意义,因此,开放式关系抽取成为近年来信息抽取领域的研究热点。目前被广泛认可的开放式关系抽取方法为弱监督方法,但是,由于现有弱监督方法大都缺乏语义约束,仍不能满足开放式关系抽取的要求。针对上述问题,本项目以语义约束为切入点,利用深度学习、优化方法和统计理论等工具,探索提升弱监督关系抽取性能的三个关键问题:(1)如何融合多层次关系特征、形成关系模式的结构化表示方案,从而提高弱监督方法的抽取精度。(2)如何建立鲁棒的关系模式相似性判定机制,实现对新关系模式的相似性衡量,进而提高关系抽取方法的召回率。(3)如何构建关系触发词约束的bootstrapping关系抽取模型,从而抑制语义漂移、提升系统抽取性能。本项目所研究的关键问题,在信息抽取领域具有一定共性。本项目的研究可望为其它开放式信息抽取提供一个新思路。
关系抽取是信息抽取技术的重要环节,是指从自然语言文本中寻找并判定实体之间存在的关系。从海量互联网开放式数据中进行关系抽取对语义搜索、问答系统、知识图谱的构建等应用具有重要意义。围绕开放式关系抽取这一课题,本项目开展以下四个方面的研究:(1)提出了一种基于多元卷积神经网络注意力机制的关系分类方法,通过多元神经网络注意力机制挖掘目标关系的触发特征,从而提升关系抽取的性能;(2)提出一种基于对抗式零样本的关系学习方法,采用条件对抗式生成网络通过对关系实例和关系描述文本的对抗式学习,学习关系描述文本到关系语义的映射,实现对未知关系的预测;(3)提出一种基于对抗训练的鲁棒远程监督关系抽取方法,采用远程监督方法自动的从距离监督训练集中发现噪声数据,并通过对抗式生成网络转移这些噪声数据到负样本集合中,实现对远程监督方法的去噪,进而提高关系抽取性能;(4)提出一种基于深度强化学习的关系抽取方法,采用深度强化学习方法学习独立于关系抽取模型的噪声过滤器,从而过滤训练样本噪声、提升关系抽取性能。本项目的研究从端到端的深度学习、零样本学习、弱监督学习以及强化学习等多个角度全面剖析提升关系抽取技术,思路可望为其它开放式信息抽取任务,增强计算机对自然语言文本数据的智能处理能力。
{{i.achievement_title}}
数据更新时间:2023-05-31
内点最大化与冗余点控制的小型无人机遥感图像配准
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
面向工件表面缺陷的无监督域适应方法
环境信息披露会影响分析师盈余预测吗?
基于关系对齐的汉语虚词抽象语义表示与分析
面向开放域知识网络的实体语义关系抽取方法研究
面向大规模知识图谱的弱监督中文实体关系抽取研究
基于简标注和弱监督学习的开放的信息抽取研究
面向开放领域的自动关系抽取技术研究