Under the impetus of the Web2.0 technology, Internet encyclopedia as a collective intelligence platform has been rapidly developed and has been considered as a disruptive innovation to replace the traditional printed encyclopedia. Internet Encyclopedia offers users with a wealth of information and also provides intelligent computational application systems with the potential of large-scale knowledge. As the ordinary text-based Internet encyclopedia is hard to be automatically used by the computer system , only structured knowledge base can be used. Thus, considering the current status of Internet encyclopedia and the challenges in the research of information extraction, it is with high practical value and scientific significance to carry out the research of extracting knowledge from large-scale Internet encyclopedia, aiming to improve the intelligence of web information service.The proposed project focus on the new requirements from the information extraction such as openness and scalability, tries to develop the open, scalable and high automatically information extraction method to extract structured knowledge from the weak-structured text in Wikipedia and Baidu Encyclopedia and so on. The extracted knowledge is expected to be further exploited by the AI systems to promote the intelligent Web information processing.
在Web2.0的推动下,网络百科作为群体智慧的平台得到了飞速发展,已经成为了一种取代传统印刷版大百科全书的颠覆性创新。网络百科不仅为用户提供了丰富的信息,也为计算机的智能应用系统提供了潜在的大规模的知识。但是,以普通文本为主的网络百科很难被计算系统自动使用,只有结构化的知识库才能被智能系统有效利用。因此,根据信息抽取、网络百科发展现状和面临的挑战,以提高网络信息服务的智能化水平为目标,结合网络百科知识在信息组织和语言表达等方面的特点,开展面向大规模网络百科的知识抽取研究,具有重要的应用价值和科学意义。本项目以维基百科、互动百科和百度百科等网络百科的开放信息为对象,针对信息抽取领域新出现的开放性、适应性和规模性需求,研究开放的、可扩展的、具有较高自动化程度的信息抽取方法,将网络百科中弱结构的文本信息转换成可以被其他智能系统直接利用的结构化的知识,从而推动网络信息的智能处理。
随着互联网应用的发展,网络百科不仅为用户提供了丰富的信息,也为计算机的智能应用系统提供了潜在的大规模的知识。因此,以提高网络信息服务的智能化水平为目标,开展面向大规模网络百科的知识抽取研究,具有重要的应用价值和科学意义。本项目以维基百科等网络百科的开放信息为对象,针对信息抽取领域新出现的开放性、适应性和规模性需求,研究开放的、可扩展的、具有较高自动化程度的知识抽取方法。.本项目从文本信息抽取、语义关联分析、百科知识质量分析与融合三方面开展研究。在文本信息抽取研究方面,为了适应网络百科这类开放的、大规模的知识抽取任务,提出了基于深度学习、对抗多任务学习和远监督学习的实体抽取、实体关系抽取等方法。在语义关联分析方面,针对结构化知识Linked Data数据集之间的语义关联问题,提出了基于信息检索方法的数据集间语义链接关系的发现方法、基于推荐技术的数据集语义同一性分析方法、RDF数据集主题建模方法。在百科知识质量分析与融合方面,分析了维基百科高质量知识条目的特征,提出了自动度量维基百科知识条目的质量的方法和支持复杂SPARQL查询的多源知识图谱的融合方法。本项目的研究成果,将推动从信息到知识的转化,进而提高网络信息智能处理水平。.项目研究期间,项目组发表论文17篇,其中在Information Processing and Management、WWW、ECIR和WAIM等国际期刊和会议上发表10篇,在国内核心学术期刊和会议上发表7篇,到目前为止被SCI收录1篇、EI 收录9篇,2篇论文在国际会议上获奖。上述论文已经被国内外同行多次引用。项目组成员获得1项省部级科技进步二等奖。项目组培养博士后1名、博士生4名、硕士生7名。
{{i.achievement_title}}
数据更新时间:2023-05-31
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究
服务经济时代新动能将由技术和服务共同驱动
敏感性水利工程社会稳定风险演化SD模型
卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比
面向开放域知识网络的实体语义关系抽取方法研究
面向维基百科的多粒度一体化信息抽取方法研究
面向大规模知识图谱的弱监督中文实体关系抽取研究
面向话题的事件关系抽取与网络构建研究