基于深度语义表示和多文档摘要的学术文献自动综述研究

基本信息
批准号:71904058
项目类别:青年科学基金项目
资助金额:18.50
负责人:丁恒
学科分类:
依托单位:华中师范大学
批准年份:2019
结题年份:2022
起止时间:2020-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:
关键词:
信息检索语义表示文本挖掘深度学习科技文献
结项摘要

People commonly encounter two major issues when employing a scholarly search engine: 1) Search engine returns many papers, researchers need to read the content of each paper carefully to understand the core of the paper; 2) Based on understanding of each paper, researchers still need to spend a lot of time for mining the relationship of knowledge among papers, only by this way, research could see the knowledge context clearly...In this project, we attempt to build a framework that classifying sentences of academic papers into different function categories considering the writing motivation of authors. We plan to utilize the citation relationship for recognizing the logic relation among knowledge in different papers. Based on these, we will try to extract sentences which represent the important knowledge of each paper and using the logic relation among these sentences for automatic generating literature review for academic papers...We expect both theoretical and practical values of our projects in multiple domains. The proposed recommendation diversification framework could be beneficial for the study of digital library, scholarly information search, and etc. The proposed recommendation algorithms might also be applicable in multiple scenarios for practical use.

在利用学术搜索引擎收集文献了解研究领域动态时,学者们常常遇到以下问题:1)搜索到大量的主题相关文献,每篇文献都需要仔细阅读,才能够理解文献的核心内容和观点,判断是否具有价值;2)需要花费大量的精力综合理解多篇文献,在了解每篇文献的知识要点基础之上,挖掘文献间的知识联系,才能够归纳出研究主题知识发展的脉络;.本课题尝试构建学术文献句子语义功能框架,对学术写作中使用句子的功能目的进行梳理和分析,结合文献引用关系,识别跨文献之间的知识逻辑联系,抽取具有知识关联性的核心句子,并以深度语义表示和多文档摘要技术为基础,研究文献综述自动生成的方法。.本课题具有较大的理论意义和应用价值:课题在数字图书馆、学术检索、战略阅读等领域有一定的理论创新意义;

项目摘要

学术文献自动综述是自然语言处理的重要应用场景,其涉及的核心技术在学术信息检索、科技文献挖掘、数字图书馆等领域具有较强的应用价值。当前学术文献自动综述研究多直接借鉴通用文本语义表示和自动摘要技术,对综述文献语言特点和行文模式的挖掘尚不够深入。.本课题从文献综述的行文模式出发,构建学术文献句子语义功能(写作功能意图)框架,对学术写作中使用句子的功能目的进行识别和分析,从不同文献间抽取具有知识关联性的核心句子,进而为文献综述自动生成提供支撑。课题组立足于学术文本语义功能研究的已有成果,构建了适用于经济学、管理学、社会学、心理学等学科领域的学术文本句子写作意图功能框架。课题组以开放数据为基础,通过对数据对齐、信息抽取和二次加工,构建了一个大规模、跨学科、细粒度标注的基础数据集和多个子任务数据集。在此基础上,课题组深入研究了篇章级学术文献语义特征表示技术,在多个实验评测任务上取得较好效果,并将该技术应用于学术文本句子写作意图功能识别上,也取得了较好效果。课题组探索了基于语篇分析的引用句逻辑关系抽取和跨文档知识逻辑关系网络构建方法,从而为后续将文献间逻辑关系引入综述自动生成奠定了基础。.课题研究已产出研究成果包括论文、数据集和软件工具:1)期刊论文成果4篇,其中2篇自科基金认定A类期刊,1篇社科基金资助期刊,1篇CSSCI领域核心期刊;2)构建基础数据集“面向文献综述自动生成的细粒度标注数据集 CCNU-SR Dataset”1个,面向文献综述生成不同子任务的实验评测数据集三个CCNU-SR AutoReview4Rank,CCNU-SR AutoReview4HCluster和CCNU-SR AutoReview4Summary;3)开发与设计了“基于学术文本深度语义理解的文献综述自动生成系统原型 CCNU-SUM”以及支撑组件工具“学术文献PDF层次结构信息抽取系统”“句子写作功能意图识别系统”“句间逻辑关系抽取系统”。.本课题具有较强的理论价值和应用价值:课题在学术信息检索研究、数字图书馆等研究领域具有一定的理论创新意义;提出的技术方法在学术信息搜索引擎、数字图书馆文献分析等场景中具有潜在应用价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
2

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
3

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
4

一种改进的多目标正余弦优化算法

一种改进的多目标正余弦优化算法

DOI:
发表时间:2019
5

面向工件表面缺陷的无监督域适应方法

面向工件表面缺陷的无监督域适应方法

DOI:
发表时间:2021

丁恒的其他基金

相似国自然基金

1

基于学术文献引文的自动摘要关键技术研究

批准号:61303125
批准年份:2013
负责人:蔡晓妍
学科分类:F0211
资助金额:27.00
项目类别:青年科学基金项目
2

基于谱主题模型的多文档自动摘要算法研究

批准号:61402069
批准年份:2014
负责人:刘娜
学科分类:F0607
资助金额:24.00
项目类别:青年科学基金项目
3

基于多语义信息融合的学术文献引文推荐研究

批准号:71673211
批准年份:2016
负责人:陆伟
学科分类:G0414
资助金额:51.00
项目类别:面上项目
4

基于深度子空间表示的分层视频摘要研究

批准号:61801428
批准年份:2018
负责人:郝鹏翼
学科分类:F0117
资助金额:26.00
项目类别:青年科学基金项目