Information overload seriously hinders the knowledge acquisition performance of scientific researchers. An effective way to solve this problem is strategic reading, which relies heavily on semantic technology. The core to achieve this technology is automatic ontology construction and semantic annotation. This project intends to carry out research from three aspects: term recognition, relationship extraction and semantic annotation. Firstly, combining semantic-enforced word embedding, BiLSTM-CRF, and high frequency term filtering model to study semantic multi-classification by simultaneously considering semantic and informativeness. Secondly, a cyclic strategy of automatic extended labeling corpus is proposed: integrating multi-feature word vector representation and BiLSTM for relational extraction, applying logical reasoning to improve the efficiency of relational extraction, combining bootstrap and remote monitoring strategy to extend corpus-labeling. Finally, a multi-level knowledge element extraction method was proposed for semantic annotation, and the key insights extraction part was used to improve the semantics of the word embedding vector with the idea of generating abstracts by predicting the full text of the literature. The research of this project has important theoretical significance for improving the knowledge system of ontology automatic construction and semantic annotation, and has positive practical significance for improving the service quality of publishers, search engines and other institutions and improving the work efficiency of scientific researchers.
信息过载严重阻碍了科研工作者知识获取效率的提升,解决这一问题的有效途径是采用“策略阅读”,实现策略阅读有赖于语义支撑技术,其核心是本体自动构建及语义标注技术。本项目拟从本体术语识别、关系抽取及语义标注三个方面展开研究。首先,结合语义增强的词向量表示、BiLSTM-CRF、以及基于信息度的高频术语过滤模型来研究兼顾“语义”及“信息度”的术语分类抽取方法;其次,提出一种标注语料自动扩展的循环策略:融合多特征词向量表示及BiLSTM进行关系抽取,辅以逻辑推理提升关系抽取效率,再结合bootstrap及远监督策略进行语料扩展标注;最后,提出多层次学术文献知识元抽取方法用于语义标注,其关键见解抽取部分用文献全文预测生成摘要的思想提升句子嵌入向量的语义。本项目的研究对完善本体自动构建及语义标注的知识体系有重要理论意义,对改进出版商、搜索引擎等机构的服务质量、提高科研工作者的工作效率有积极现实意义。
信息过载严重阻碍了科研工作者知识获取效率,解决这一问题的有效途径是“策略阅读”,实现策略阅读有赖于语义支撑技术,其核心是本体自动构建及语义标注技术。本研究从术语识别、关系抽取及语义支撑技术的应用三个方面展开研究。首先,针对术语抽取技术,研究并对比了多种术语抽取模型,提出了增量式Huber-SVR、基于神经网络的方案以及语义提升的学术文献术语抽取方案;其次,针对关系抽取技术,研究了增量式Kriging模型、深度学习方案并提出一种基于Transformer深度神经网络进行关系抽取;最后,针对语义支撑技术的应用,研究了序列SVR算法、增量高斯过程、并提出了基于图神经网络的学术文献推荐系统,通过学习的表示向量进行学术论文推荐。多项对比实验表明,本研究提出的方法能够有效地提升语义技术的效率,多项实验对比表明的本研究提出的方法要比现有的方法更好,这些语义技术能够很好的为学术文献“策略阅读”进行有效地支撑。本项目的研究对完善本体自动构建及语义标注的知识体系有重要理论意义,对改进出版商、搜索引擎等机构的服务质量、提高科研工作者的工作效率有积极现实意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究
基于多语义信息融合的学术文献引文推荐研究
面向学术文献的知识提取与总结关键技术研究
基于深度语义表示和多文档摘要的学术文献自动综述研究
面向语义出版的科技文献资源描述框架研究