In recent years, knowledge graph attracted much attention from both academia and industries. Knowledge graph has played an important role in such application areas as vertical search, machine translation, and semantic Q&A. It also exhibits a promising application prospect in disease diagnosis, anti-fraud in finance, and abnormal data analysis to name a few. On the other hand, the big volume and openness of Web data has made it the main source of large-scale knowledge graphs to acquiring knowledge. It has been shown that in open Web data, about 40% semantic relations involve multiple concepts or entities, thus called n-ary relations. Due to the complexity of n-ary relations, current knowledge acquisition usually treats n-ary relations simply as binary ones, which leads to inaccuracy of relation extraction and subsequent knowledge inference. For this problem, this project centers on automatic extraction, distributed representation and high efficient inference of n-ary relations in open Web data. Specifically, it researches into the problem from four layers, including large-scale automatic extraction of n-ary relations, formalization and distributed representation of n-ary relations, logic, structure and distributed representation coupled inference, and knowledge computing and application. The general purpose of this project is to build up a system of methods for dealing with n-ary relations, prompt the accuracy of n-ary relation extraction, advance the inference performance of knowledge graphs, and finally accelerate more extensive and deeper applications of knowledge graphs.
近几年,知识图谱得到了学术界与工业界的广泛关注。知识图谱已在垂直搜索、机器翻译与语义问答等应用领域发挥了重要作用,并且在疾病诊断、金融反欺诈、数据异常分析等方面展示出良好的应用前景。互联网数据的大体量和开放性使其成为大规模知识图谱获取知识的主要来源。研究表明,开放网络数据中大约40%的语义关系涉及多个概念或实体,也因此称之为多元关系。由于多元关系的复杂性使现有知识获取工作通常将其简化为二元关系进行处理,导致关系抽取以及后续知识推理的不准确。针对上述问题,本项目围绕开放网络数据中多元关系的自动抽取、分布式表示学习与高效推理三个科学问题,从多元关系的大规模自动抽取,多元关系形式化及其分布式表示学习,融合逻辑、结构与分布式表示的知识推理以及知识计算与应用四个层面展开研究,旨在建立多元关系处理的方法体系,提升多元关系抽取的准确性,提高知识图谱的推理能力,促进知识图谱更广泛更深入的应用。
互联网数据的大体量和开放性使其成为大规模知识图谱获取知识的主要来源。研究表明,开放网络数据中大约40%的语义关系涉及多个概念或实体,也因此称之为多元关系。现有知识获取工作通常将其简化为二元关系进行处理,导致关系抽取以及后续知识推理的不准确。为此,本项目围绕开放网络数据中多元关系的自动抽取、分布式表示学习与高效推理三个科学问题开展研究,提出了11种相应的模型和算法,并在相应的数据集上验证了性能。具体的,基于关系抽取中句子和篇章的不同特点,提出了句子级多元关系抽取模型A3TPCNN和MOGANED以及篇章级抽取模型DEEB-RNN和SAE-CEED;针对多元关系的知识推理工作缺乏通用符号表示形式这一问题,提出了基于角色-值对NaLP和基于主三元组NeuReasoner两种多元关系数据表达模型;针对单一推理方法无法兼顾准确度与速度这一问题,提出了融合逻辑、结构与分布式表示的知识推理方法,进而在融合逻辑与分布式表示,融合图结构与分布式表示和小样本学习三个维度进行了深入研究,并提出RARL、SRN、DAC、EPASE-ECR和MetaCLSLR模型;为验证本项目提出算法模型的实用性,本项目将提出的算法模型应用于军事领域知识图谱,极大提升了该领域的分析效率。上述研究成果为多元关系抽取、表示与推理研究提供了模型工具与关键技术,促进知识图谱更广泛更深入的应用。本项目资助申请专利6个,出版学术著作1部,发表论文36篇,其中IEEE TKDE、IPM、KAIS、软件学报等国内外期刊文章14篇,AAAI、WWW、EMNLP、CIKM、ACL等会议文章22篇;培养博士、硕士研究生13名,其中1名博士生、7名硕士生已毕业。项目负责人获the 4th IEEE International Conference on Data Science and Systems(DSS-2018)会议的Outstanding leadership Award。
{{i.achievement_title}}
数据更新时间:2023-05-31
现代优化理论与应用
WMTL-代数中的蕴涵滤子及其应用
口腔扁平苔藓研究热点前沿的可视化分析
相关系数SVD增强随机共振的单向阀故障诊断
区块链技术:从数据智能到知识自动化
面向开放域知识网络的实体语义关系抽取方法研究
开放域语义关系抽取、表示和计算关键技术研究
面向开放领域的自动关系抽取技术研究
面向话题的事件关系抽取与网络构建研究