维基百科拥有庞大高质量语料资源,抽取维基百科并形成结构化知识具有重要意义。本项目系统研究面向维基百科的信息抽取问题,提出多粒度一体化信息抽取方法,思路是把维基页面按页面结构分割成多个信息单元,并以信息单元为横坐标,抽取的粒度知识为纵坐标,纵向进行多粒度抽取,横向进行一体化抽取。具体从多粒度、一体化和信息组织三方面展开,研究内容包括:(1)多粒度信息抽取。针对每个信息单元,从粗粒度到细粒度进行分层抽取,重点解决细粒度知识抽取问题。(2)一体化信息抽取。针对每种类型的粒度知识,选取所有抽取该粒度知识的信息单元,充分考虑不同信息单元之间知识与结构等方面的参照作用,进行一体化研究,提高信息抽取效果。(3)抽取结果的信息组织。运用本体方法组织抽取结果,建立维基概念的层次网络,形成一套完整的知识体系。研究成果作为基础资源进行信息服务,对自然语言处理相关领域的研究具有重要应用价值。
本课题面向维基百科进行信息抽取,研究了多粒度知识的抽取技术与组织方法,包括双语词汇、人名属性、语义关联关系、查询分类关系等,并由此发展了一系列信息挖掘与知识组织方法,形成基础语言知识库。主要贡献如下:①双语词汇挖掘:针对维基百科的领域覆盖率和结构特征,提出在维基百科页面中自动获取高质量中英文翻译对的模板挖掘方法,能够发现人工不容易察觉的复杂模板。②人名属性挖掘:提出运用网络查询日志和维基百科知识构建人名知识库,并应用于查询分类。通过抽取查询日志中的人名实体,并结合百科知识充实实体属性知识,形成包含属性知识的人名知识库。根据高质量的属性模板和统计分类方法对查询中的人名进行分类,在查询推荐中依据不同人物分类知识库进行分类推荐。③语义关联关系挖掘:提出了一种基于维基百科的计算命名实体关联度的方法,该方法充分利用了维基百科中的超链接信息,通过命名实体的维基百科页面含有的共现超链接计算得到命名实体的关联度.通过与人工标注的命名实体关联度进行对比,该方法计算得到的命名实体的关联度具有较高的准确率,计算结果与人们认知结果基本吻合。④查询分类关系挖掘:查询分类需要建立查询意图的分类知识体系,提出基于随机游走方式的查询分类知识挖掘方法,首先抽取维基百科中的全部词条与分类知识形成集合,并采用随机游走方式遍历图中所有概念结点,得到每个结点的概率分布,并将其转化成分类权重,最终构建查询知识链接图。该方法借助维基百科能够解决数据稀疏问题。⑤知识组织:运用基于本体的分类知识管理方法,通过本体来表示分类知识,使得分类知识之间的关系以及知识的属性能够完整的表示出来。同时将本体的表示的分类知识利用OWL文档进行存储。项目研究成果包括:发表3篇EI期刊论文、14篇核心期刊论文,其中单篇论文引用率最高已达到13次;形成了基于维基百科的语言知识库,可进行知识服务,具有很好的应用价值;申请人入选北京市青年拔尖人才计划,指导的1名研究生获得北京市优秀毕业研究生称号。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于多模态信息特征融合的犯罪预测算法研究
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
服务经济时代新动能将由技术和服务共同驱动
多空间交互协同过滤推荐
多源数据驱动CNN-GRU模型的公交客流量分类预测
面向用户决策的多粒度主题信息结构抽取及行为机理研究
面向多源数据的多粒度计算方法研究
面向多模态数据的多粒度计算理论与方法
面向信息抽取的汉语时间系统研究