从自然语言文本中自动获取有用信息是信息抽取研究的目标。与传统的信息抽取针对某一类特定的关系信息不同,开放的信息抽取旨在利用信息抽取技术获得海量的非特定的关系信息,从而实现真正的广泛的信息抽取。目前,开放的信息抽取面临如下的挑战:一,系统性能不高;二,泛化能力弱。针对这两个挑战,本项目首先引入一个多知识源导向的开放的信息抽取框架,在其中构造一个基于简标注和弱监督学习的信息抽取器,并进行命名实体识别和开放的关系抽取的联合分析,从而提高系统的性能和泛化能力,进而实现项目的最终的目标-"面向非特定的关系,构造一个具有高准确率和召回率的信息抽取系统,并拥有很强的泛化能力",实现真正的广义的信息抽取。
项目主要围绕基于简标注和弱监督学习的开放的信息抽取展开研究。具体的研究计划要点包括,基于简标注和弱监督学习的统计模型的构建以及面向开放信息抽取系统的构建。项目按照研究计划进展顺利,同时项目负责人在原有的研究计划基础上进行了必要的内容扩充。考虑到事件抽取在各个自然语言处理领域的广泛应用,我们选择事件抽取作为开放的信息抽取的具体实例,并围绕生物信息学和社交网络文本展开工作,取得了一定的研究进展。目前取得的研究成果包括SCI论文3篇,其中在生物信息学顶级期刊Bioinformatics(影响因子4.6)上发表一篇研究性论文,自然语言处理顶级会议ACL2014会议论文1篇。具体如下:发表了题目为“Event Trigger Identification for Biomedical Events Extraction using Domain Knowledge”的论文。论文主要围绕信息抽取的主要组成部分-事件抽取展开研究,并结合生物学应用,提出基于领域知识的生物事件触发词识别方法;发表了题目为“Semi-Supervised Learning of Statistical Models for Natural Language Understanding”的研究性论文。该论文为基于简标注和弱监督学习的统计模型的构建提供理论指导;发表了题目为“A Simple Bayesian Modelling Approach to Event Extraction from Twitter”的ACL2014会议论文。论文主要围绕信息抽取的主要组成部分-事件抽取展开研究,并结合社交网络文本,提出基于无监督学习的开放的事件抽取模型LEM。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
基于弱监督学习的水果品种信息自动抽取方法研究
基于弱监督学习和深度信息的目标跟踪算法研究
面向互联网开放域的弱监督关系抽取关键问题研究
基于弱监督学习的不精确标注水下声音事件识别方法研究