面向网络百科的知识抽取研究

基本信息

批准号：61472436

项目类别：面上项目

资助金额：83.00

负责人：王挺

学科分类：

依托单位：中国人民解放军国防科技大学

批准年份：2014

结题年份：2018

起止时间：2015-01-01 - 2018-12-31

项目状态：已结题

项目参与者：唐晋韬,张晓艳,谢松县,刘培磊,汝承森,刘海池,岳大鹏,李欣奕,原默晗

关键词：

信息检索文本挖掘自然语言处理信息抽取知识工程

结项摘要

Under the impetus of the Web2.0 technology, Internet encyclopedia as a collective intelligence platform has been rapidly developed and has been considered as a disruptive innovation to replace the traditional printed encyclopedia. Internet Encyclopedia offers users with a wealth of information and also provides intelligent computational application systems with the potential of large-scale knowledge. As the ordinary text-based Internet encyclopedia is hard to be automatically used by the computer system , only structured knowledge base can be used. Thus, considering the current status of Internet encyclopedia and the challenges in the research of information extraction, it is with high practical value and scientific significance to carry out the research of extracting knowledge from large-scale Internet encyclopedia, aiming to improve the intelligence of web information service.The proposed project focus on the new requirements from the information extraction such as openness and scalability, tries to develop the open, scalable and high automatically information extraction method to extract structured knowledge from the weak-structured text in Wikipedia and Baidu Encyclopedia and so on. The extracted knowledge is expected to be further exploited by the AI systems to promote the intelligent Web information processing.

在Web2.0的推动下，网络百科作为群体智慧的平台得到了飞速发展，已经成为了一种取代传统印刷版大百科全书的颠覆性创新。网络百科不仅为用户提供了丰富的信息，也为计算机的智能应用系统提供了潜在的大规模的知识。但是，以普通文本为主的网络百科很难被计算系统自动使用，只有结构化的知识库才能被智能系统有效利用。因此，根据信息抽取、网络百科发展现状和面临的挑战，以提高网络信息服务的智能化水平为目标，结合网络百科知识在信息组织和语言表达等方面的特点，开展面向大规模网络百科的知识抽取研究，具有重要的应用价值和科学意义。本项目以维基百科、互动百科和百度百科等网络百科的开放信息为对象，针对信息抽取领域新出现的开放性、适应性和规模性需求，研究开放的、可扩展的、具有较高自动化程度的信息抽取方法，将网络百科中弱结构的文本信息转换成可以被其他智能系统直接利用的结构化的知识，从而推动网络信息的智能处理。

项目摘要

随着互联网应用的发展，网络百科不仅为用户提供了丰富的信息，也为计算机的智能应用系统提供了潜在的大规模的知识。因此，以提高网络信息服务的智能化水平为目标，开展面向大规模网络百科的知识抽取研究，具有重要的应用价值和科学意义。本项目以维基百科等网络百科的开放信息为对象，针对信息抽取领域新出现的开放性、适应性和规模性需求，研究开放的、可扩展的、具有较高自动化程度的知识抽取方法。.本项目从文本信息抽取、语义关联分析、百科知识质量分析与融合三方面开展研究。在文本信息抽取研究方面，为了适应网络百科这类开放的、大规模的知识抽取任务，提出了基于深度学习、对抗多任务学习和远监督学习的实体抽取、实体关系抽取等方法。在语义关联分析方面，针对结构化知识Linked Data数据集之间的语义关联问题，提出了基于信息检索方法的数据集间语义链接关系的发现方法、基于推荐技术的数据集语义同一性分析方法、RDF数据集主题建模方法。在百科知识质量分析与融合方面，分析了维基百科高质量知识条目的特征，提出了自动度量维基百科知识条目的质量的方法和支持复杂SPARQL查询的多源知识图谱的融合方法。本项目的研究成果，将推动从信息到知识的转化，进而提高网络信息智能处理水平。.项目研究期间，项目组发表论文17篇，其中在Information Processing and Management、WWW、ECIR和WAIM等国际期刊和会议上发表10篇，在国内核心学术期刊和会议上发表7篇，到目前为止被SCI收录1篇、EI 收录9篇，2篇论文在国际会议上获奖。上述论文已经被国内外同行多次引用。项目组成员获得1项省部级科技进步二等奖。项目组培养博士后1名、博士生4名、硕士生7名。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：10.3724/SP.J.1089.2019.17435

发表时间：2019

DOI：

发表时间：2020

DOI：

发表时间：2017

DOI：10.7498/aps.68.20181682

发表时间：2019

王挺的其他基金

批准号：20806071

批准年份：2008

资助金额：18.00

项目类别：青年科学基金项目

批准号：21875128

批准年份：2018

资助金额：65.00

项目类别：面上项目

批准号：60805048

批准年份：2008

资助金额：21.00

项目类别：青年科学基金项目

批准号：21701098

批准年份：2017

资助金额：25.00

项目类别：青年科学基金项目

批准号：60873097

批准年份：2008

资助金额：38.00

项目类别：面上项目

批准号：60403050

批准年份：2004

资助金额：26.00

项目类别：青年科学基金项目

批准号：61170156

批准年份：2011

资助金额：56.00

项目类别：面上项目

相似国自然基金

面向开放域知识网络的实体语义关系抽取方法研究

批准号：61672057

批准年份：2016

负责人：冯岩松

学科分类：F0211

资助金额：62.00

项目类别：面上项目

面向维基百科的多粒度一体化信息抽取方法研究

批准号：61103112

批准年份：2011

负责人：段建勇

学科分类：F0211

资助金额：22.00

项目类别：青年科学基金项目

面向大规模知识图谱的弱监督中文实体关系抽取研究

批准号：61573163

批准年份：2015

负责人：周光有

学科分类：F0607

资助金额：60.00

项目类别：面上项目

面向话题的事件关系抽取与网络构建研究

批准号：61772354

批准年份：2017

负责人：李培峰

学科分类：F0211

资助金额：62.00

项目类别：面上项目

面向网络百科的知识抽取研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

信息熵-保真度联合度量函数的单幅图像去雾方法

强震过程滑带超间隙水压力效应研究:大光包滑坡启动机制

汽车侧倾运动安全主动悬架LQG控制器设计方法

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

王挺的其他基金

吸附相反应技术制备纳米TiO2的微结构与光催化关系研究

静电纺丝制备无定形氧化钨/高分子复合纳米纤维膜及其在污水处理及贵金属回收方面的应用

越障轮椅机器人的机构、动力学及稳定性研究

掺杂伽马相氧化镓纳米晶的合成及其在固体白光照明中的应用

网络信息的话题挖掘和分析关键技术研究

基于本体的中文网络信息结构化研究

融合网络特征的文本观点挖掘

相似国自然基金