The Semantic Web is a collaborative movement led by the World Wide Web Consortium (W3C) that promotes common formats for data on the World Wide Web. Compared with traditional WWW, Semantic Web can support semantic search and provide more precise search results. Therefore, Semantic Web has attracted lots of attentions in the research area. An effective way to build semantic web is to utilize information extraction technique to obtain semantic knowledge from unstructured Web pages. However, recent research ignores two important features in semantic web building, that are "Timeliness" and "Uncertainty". Furthermore, existing research pays more attention to extract knowledge facts from English resources, and there is less work concerning Chinese. In this project, we propose to building Chinese Semantic Web from online Chinese encyclopedias and Chinese News Website. Specifically, we extract entities and their basic property values from online Chinese encyclopedias, and extract dynamic knowledge (e.g., 5W1H in news) from Chinese News Website. We also integrate the knowledge from these two distinct sources. During the building processes, we consider the "timeliness" and "uncertainty". Finally, we propose uncertain semantic search algorithms over the semantic web to improve the query quality.
语义网(Semantic Web)是W3C组织提出一项将现有的Web信息结构化的运动。和传统的Web相比,语义网可以更好地支持语义检索,提供更准确的查询结果,因而构建语义网成为了目前计算机领域的研究热点。构建语义网的一个重要途径是通过信息抽取技术从非结构化文档中抽取语义知识,并构建语义关系网。目前的语义网构建的研究,往往忽略了所抽取的语义知识的时效性,以及所抽取语义知识的不确定性特点。因此,本课题拟提出中文动态语义网的构建技术,利用信息抽取技术,从中文百科类网站以及中文新闻页面中抽取语义数据。具体的,利用中文百科类网站 抽取中文实体的基本属性信息;利用新闻类网页数据,抽取实时的新闻语义要素5W1H。同时 对这两类语义数据进行语义集成,从而形成时效性高的中文动态语义网。另外考虑到,利用信息抽取技术所获得的语义数据的不确定性特点,设计基于不确定性语义网的检索算法,从而提高语义检索的准确性。
结构化知识图谱已成为诸多人工智能应用的核心。本项目以中文在线百科和中文新闻等网络文本语料为基础,采用统计机器学习和深度学习方法从大规模文本语料中萃取中文实体语义关系,构建大规模中文语义知识图谱,并针对结构化语义知识网的特点研究了面向大规模知识图谱的图数据存储和查询。项目着力解决了面向多源文本资源的实体信息抽取,实体语义关系抽取,特别是面向网络百科和新闻的动态知识抽取,以及面向大规模动态语义网络的自然语言查询理解、高效检索和查询。课题组研究了基于网络百科和新闻资源的知识抽取技术,从百度百科、维基百科及多种新闻资源共抽取以三元组形式存储(满足RDF标准)的知识条目,构建了结构化中文知识库,PKUBASE,包含高质量可信的中文实体资源约100万个,三元组知识条目超过2,000万条。课题组还在基于图结构的海量语义数据存储与查询方面进行了深入的研究,包括基于子图匹配的检索,在图上的关联检索和不确定性图上的检索算法方面等。同时还利用子图匹配的方法设计一套面向海量RDF数据的SPARQL查询系统。此外,课题组还针对面向自然语言问题的图数据检索与查询方法进行了深入研究,并在多项国际权威评测中取得了较好的成绩。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
内质网应激在抗肿瘤治疗中的作用及研究进展
环境信息披露会影响分析师盈余预测吗?
基于关系对齐的汉语虚词抽象语义表示与分析
国际比较视野下我国开放政府数据的现状、问题与对策
中文语义依存分析资源构建及分析技术研究
面向网络知识服务的中文动态语义分析关键技术研究
基于词汇语义网络的中文深层语义分析
基于整句层面的中文语义角色标注关键技术研究