面向网络百科的知识抽取研究

基本信息
批准号:61472436
项目类别:面上项目
资助金额:83.00
负责人:王挺
学科分类:
依托单位:中国人民解放军国防科技大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:唐晋韬,张晓艳,谢松县,刘培磊,汝承森,刘海池,岳大鹏,李欣奕,原默晗
关键词:
信息检索文本挖掘自然语言处理信息抽取知识工程
结项摘要

Under the impetus of the Web2.0 technology, Internet encyclopedia as a collective intelligence platform has been rapidly developed and has been considered as a disruptive innovation to replace the traditional printed encyclopedia. Internet Encyclopedia offers users with a wealth of information and also provides intelligent computational application systems with the potential of large-scale knowledge. As the ordinary text-based Internet encyclopedia is hard to be automatically used by the computer system , only structured knowledge base can be used. Thus, considering the current status of Internet encyclopedia and the challenges in the research of information extraction, it is with high practical value and scientific significance to carry out the research of extracting knowledge from large-scale Internet encyclopedia, aiming to improve the intelligence of web information service.The proposed project focus on the new requirements from the information extraction such as openness and scalability, tries to develop the open, scalable and high automatically information extraction method to extract structured knowledge from the weak-structured text in Wikipedia and Baidu Encyclopedia and so on. The extracted knowledge is expected to be further exploited by the AI systems to promote the intelligent Web information processing.

在Web2.0的推动下,网络百科作为群体智慧的平台得到了飞速发展,已经成为了一种取代传统印刷版大百科全书的颠覆性创新。网络百科不仅为用户提供了丰富的信息,也为计算机的智能应用系统提供了潜在的大规模的知识。但是,以普通文本为主的网络百科很难被计算系统自动使用,只有结构化的知识库才能被智能系统有效利用。因此,根据信息抽取、网络百科发展现状和面临的挑战,以提高网络信息服务的智能化水平为目标,结合网络百科知识在信息组织和语言表达等方面的特点,开展面向大规模网络百科的知识抽取研究,具有重要的应用价值和科学意义。本项目以维基百科、互动百科和百度百科等网络百科的开放信息为对象,针对信息抽取领域新出现的开放性、适应性和规模性需求,研究开放的、可扩展的、具有较高自动化程度的信息抽取方法,将网络百科中弱结构的文本信息转换成可以被其他智能系统直接利用的结构化的知识,从而推动网络信息的智能处理。

项目摘要

随着互联网应用的发展,网络百科不仅为用户提供了丰富的信息,也为计算机的智能应用系统提供了潜在的大规模的知识。因此,以提高网络信息服务的智能化水平为目标,开展面向大规模网络百科的知识抽取研究,具有重要的应用价值和科学意义。本项目以维基百科等网络百科的开放信息为对象,针对信息抽取领域新出现的开放性、适应性和规模性需求,研究开放的、可扩展的、具有较高自动化程度的知识抽取方法。.本项目从文本信息抽取、语义关联分析、百科知识质量分析与融合三方面开展研究。在文本信息抽取研究方面,为了适应网络百科这类开放的、大规模的知识抽取任务,提出了基于深度学习、对抗多任务学习和远监督学习的实体抽取、实体关系抽取等方法。在语义关联分析方面,针对结构化知识Linked Data数据集之间的语义关联问题,提出了基于信息检索方法的数据集间语义链接关系的发现方法、基于推荐技术的数据集语义同一性分析方法、RDF数据集主题建模方法。在百科知识质量分析与融合方面,分析了维基百科高质量知识条目的特征,提出了自动度量维基百科知识条目的质量的方法和支持复杂SPARQL查询的多源知识图谱的融合方法。本项目的研究成果,将推动从信息到知识的转化,进而提高网络信息智能处理水平。.项目研究期间,项目组发表论文17篇,其中在Information Processing and Management、WWW、ECIR和WAIM等国际期刊和会议上发表10篇,在国内核心学术期刊和会议上发表7篇,到目前为止被SCI收录1篇、EI 收录9篇,2篇论文在国际会议上获奖。上述论文已经被国内外同行多次引用。项目组成员获得1项省部级科技进步二等奖。项目组培养博士后1名、博士生4名、硕士生7名。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
2

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

DOI:10.3969/j.issn.1002-0268.2020.03.007
发表时间:2020
3

服务经济时代新动能将由技术和服务共同驱动

服务经济时代新动能将由技术和服务共同驱动

DOI:10.19474/j.cnki.10-1156/f.001172
发表时间:2017
4

敏感性水利工程社会稳定风险演化SD模型

敏感性水利工程社会稳定风险演化SD模型

DOI:10.16265/j.cnki.issn1003-3033.2021.04.003
发表时间:2021
5

卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比

卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比

DOI:10.13249/j.cnki.sgs.2020.08.003
发表时间:2020

王挺的其他基金

批准号:20806071
批准年份:2008
资助金额:18.00
项目类别:青年科学基金项目
批准号:21875128
批准年份:2018
资助金额:65.00
项目类别:面上项目
批准号:60805048
批准年份:2008
资助金额:21.00
项目类别:青年科学基金项目
批准号:21701098
批准年份:2017
资助金额:25.00
项目类别:青年科学基金项目
批准号:60873097
批准年份:2008
资助金额:38.00
项目类别:面上项目
批准号:60403050
批准年份:2004
资助金额:26.00
项目类别:青年科学基金项目
批准号:61170156
批准年份:2011
资助金额:56.00
项目类别:面上项目

相似国自然基金

1

面向开放域知识网络的实体语义关系抽取方法研究

批准号:61672057
批准年份:2016
负责人:冯岩松
学科分类:F0211
资助金额:62.00
项目类别:面上项目
2

面向维基百科的多粒度一体化信息抽取方法研究

批准号:61103112
批准年份:2011
负责人:段建勇
学科分类:F0211
资助金额:22.00
项目类别:青年科学基金项目
3

面向大规模知识图谱的弱监督中文实体关系抽取研究

批准号:61573163
批准年份:2015
负责人:周光有
学科分类:F0607
资助金额:60.00
项目类别:面上项目
4

面向话题的事件关系抽取与网络构建研究

批准号:61772354
批准年份:2017
负责人:李培峰
学科分类:F0211
资助金额:62.00
项目类别:面上项目