With the explosive growth of scientific literature, automatic summarization is necessary to releasing the researchers from reading huge amount of papers. Meanwhile, citation can help reader to understand the method, application, contribution and limitation of one paper from different views. Thus, the goal of this proposal is to explore the real motivation of citations and feasible solution of abstractive summarization. Then a novel citation summarization task is defined, first to summarize the content of the paper and further to summarize the influence of the paper in different dimensions. The whole research plan includes: (1) We will research on information extraction techniques for scientific literature and automatically extract the concepts including entities, events and relations, overcoming the limitation of traditional IE involving humans in the loop. (2) We will present a discourse labeling specification for scientific literature and introduce dependency structure into discourse parsing. We will research how to combine deep learning into developing an efficient discourse parsing method. (3) Focusing on the citation summarization task, we will conduct multi-dimensions analysis for citations. (4) We will propose a summarization framework based on templates. Under this framework, we will research on how to generate templates with concepts as skeleton, the coherence model, and citation summary generation.
科技文献的爆炸式增长使得自动摘要成为减轻科研人员负担的一项关键技术,而论文引用能从多个角度去帮助理解论文的方法、应用、贡献和局限性。因此,本申请的目标是探究引用的真正动机和生成式摘要技术。在此基础上定义了不同于过去的引用摘要任务,不限于论文本身内容,而进一步依据引用的各个维度对论文的影响进行总结。研究内容主要包括:(1)研究面向科技文献的信息抽取技术,克服了传统信息抽取技术高度依赖人工的局限性,对特定领域的实体、事件、关系等进行自动提取;(2)提出一套科技文献的篇章标注规范,引入依存结构对论文段落进行篇章表示,并结合深度学习方法探索有效的篇章分析算法;(3)围绕引用摘要任务进行引用的多维度分析,其中包括引用重要性、引用内容、引用倾向性等方面;(4)研究基于模板的引用摘要生成框架,研究以概念为骨架的模板生成技术、基于篇章分析的文本连贯性计算模型、基于模板和引用维度分析的引用摘要生成技术。
本课题围绕科技文献展开对科技论文的分析和自动摘要研究,四年来的主要研究内容归纳为如下三方面:(1)提出一套科技文献的篇章标注规范,引入依存结构对论文段落进行篇章表示,并结合深度学习方法探索有效的篇章分析方法;(2)研究科技论文的自动分析,从内容、引用内容、引用重要性等各个方面进行分析;(3)研究自动摘要和文本生成方法,提出引用摘要生成方法,并改进生成方法的错误事实问题。.课题基本按项目预定的计划进行,达到了项目预期的目标,并完成了项目预期的研究成果。基于以上研究内容,形成了理论结合实践、规范和资源共建、技术实用化的一整套比较系统的研究成果。(1)理论成果:围绕社会媒体数据进行热点话题发现和摘要的相关研究成果整理论文31篇发表在国内外会议和期刊上。其中,期刊论文6篇,会议论文25篇,在国际高水平会议ACL,AAAI,EMNLP, COLING上共发表论文13篇。(2)规范和资源建设:构建和完善了一套篇章依存关系标注规范,并在此规范下完成798篇科技论文摘要的篇章依存标注,506篇摘要被标注了两遍。EDU标注采用两遍标注原则,保持两个标注员的一致性。(3)系统实践:基于深度学习算法,开发了自动引用摘要、自动篇章分析、自动关键词分析的demo,并和百度公司合作进行研究自动阅读理解技术,相关技术已产品化。(4)学术交流:与伦斯勒理工大学、香港理工大学、中央民族大学、北京理工大学、微软研究院、浪潮公司、Baidu公司等进行学术交流、资源转让与技术合作等。(5)人才培养:指导了2名博士生、4名硕士生、6名本科生顺利毕业。所指导的硕士生中1名获得国家奖学金,1名研究生获得ACL会议的杰出论文奖。多名本科生获北京大学信息学院优秀本科毕业论文。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
面向科技文献的机器翻译关键技术研究
基于学术文献引文的自动摘要关键技术研究
面向语义出版的科技文献资源描述框架研究
面向网络多视频摘要的关联学习关键技术研究