面向学术文献策略阅读的语义支撑技术研究

基本信息
批准号:71904078
项目类别:青年科学基金项目
资助金额:18.50
负责人:蒋婷
学科分类:
依托单位:南京财经大学
批准年份:2019
结题年份:2022
起止时间:2020-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:
关键词:
知识挖掘知识元语义关联科技文献本体学习
结项摘要

Information overload seriously hinders the knowledge acquisition performance of scientific researchers. An effective way to solve this problem is strategic reading, which relies heavily on semantic technology. The core to achieve this technology is automatic ontology construction and semantic annotation. This project intends to carry out research from three aspects: term recognition, relationship extraction and semantic annotation. Firstly, combining semantic-enforced word embedding, BiLSTM-CRF, and high frequency term filtering model to study semantic multi-classification by simultaneously considering semantic and informativeness. Secondly, a cyclic strategy of automatic extended labeling corpus is proposed: integrating multi-feature word vector representation and BiLSTM for relational extraction, applying logical reasoning to improve the efficiency of relational extraction, combining bootstrap and remote monitoring strategy to extend corpus-labeling. Finally, a multi-level knowledge element extraction method was proposed for semantic annotation, and the key insights extraction part was used to improve the semantics of the word embedding vector with the idea of generating abstracts by predicting the full text of the literature. The research of this project has important theoretical significance for improving the knowledge system of ontology automatic construction and semantic annotation, and has positive practical significance for improving the service quality of publishers, search engines and other institutions and improving the work efficiency of scientific researchers.

信息过载严重阻碍了科研工作者知识获取效率的提升,解决这一问题的有效途径是采用“策略阅读”,实现策略阅读有赖于语义支撑技术,其核心是本体自动构建及语义标注技术。本项目拟从本体术语识别、关系抽取及语义标注三个方面展开研究。首先,结合语义增强的词向量表示、BiLSTM-CRF、以及基于信息度的高频术语过滤模型来研究兼顾“语义”及“信息度”的术语分类抽取方法;其次,提出一种标注语料自动扩展的循环策略:融合多特征词向量表示及BiLSTM进行关系抽取,辅以逻辑推理提升关系抽取效率,再结合bootstrap及远监督策略进行语料扩展标注;最后,提出多层次学术文献知识元抽取方法用于语义标注,其关键见解抽取部分用文献全文预测生成摘要的思想提升句子嵌入向量的语义。本项目的研究对完善本体自动构建及语义标注的知识体系有重要理论意义,对改进出版商、搜索引擎等机构的服务质量、提高科研工作者的工作效率有积极现实意义。

项目摘要

信息过载严重阻碍了科研工作者知识获取效率,解决这一问题的有效途径是“策略阅读”,实现策略阅读有赖于语义支撑技术,其核心是本体自动构建及语义标注技术。本研究从术语识别、关系抽取及语义支撑技术的应用三个方面展开研究。首先,针对术语抽取技术,研究并对比了多种术语抽取模型,提出了增量式Huber-SVR、基于神经网络的方案以及语义提升的学术文献术语抽取方案;其次,针对关系抽取技术,研究了增量式Kriging模型、深度学习方案并提出一种基于Transformer深度神经网络进行关系抽取;最后,针对语义支撑技术的应用,研究了序列SVR算法、增量高斯过程、并提出了基于图神经网络的学术文献推荐系统,通过学习的表示向量进行学术论文推荐。多项对比实验表明,本研究提出的方法能够有效地提升语义技术的效率,多项实验对比表明的本研究提出的方法要比现有的方法更好,这些语义技术能够很好的为学术文献“策略阅读”进行有效地支撑。本项目的研究对完善本体自动构建及语义标注的知识体系有重要理论意义,对改进出版商、搜索引擎等机构的服务质量、提高科研工作者的工作效率有积极现实意义。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

DOI:10.3969/j.issn.1002-0268.2020.03.007
发表时间:2020

相似国自然基金

1

基于多语义信息融合的学术文献引文推荐研究

批准号:71673211
批准年份:2016
负责人:陆伟
学科分类:G0414
资助金额:51.00
项目类别:面上项目
2

面向学术文献的知识提取与总结关键技术研究

批准号:61170166
批准年份:2011
负责人:万小军
学科分类:F0211
资助金额:54.00
项目类别:面上项目
3

基于深度语义表示和多文档摘要的学术文献自动综述研究

批准号:71904058
批准年份:2019
负责人:丁恒
学科分类:G0414
资助金额:18.50
项目类别:青年科学基金项目
4

面向语义出版的科技文献资源描述框架研究

批准号:71904043
批准年份:2019
负责人:傅柱
学科分类:G0414
资助金额:19.50
项目类别:青年科学基金项目