基于谱主题模型的多文档自动摘要算法研究

基本信息
批准号:61402069
项目类别:青年科学基金项目
资助金额:24.00
负责人:刘娜
学科分类:
依托单位:大连工业大学
批准年份:2014
结题年份:2017
起止时间:2015-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:肖鹏,李明霞,肖智博,王法胜,毛玉越
关键词:
主题模型多文档摘要谱学习
结项摘要

Existing multi-document summarization algorithm mainly focus on a single learning algorithm and ignore the cooperation among multiple algorithm, which leads to incomplete, inaccurate and high redundancy of summarization result. This project establishes the multi-strategies cooperative learning framework to research the issue of sentence similarity calculation, extraction of sentence and ranking of sentence in multi-documents summarization, by developing the co-working mechanism of multiple algorithms including topic model, spectral learning, ranking learning and active learning, etc.Our research mainly concentrates on mixture topic model, parameter estimation based on spectral learning, similarity based on clause substructure and topic model, control model of redundancy and relativity according MMR algorithm, keywords-dependent and keywords-independent summarization sentence ranking using topic model, ranking learning and active learning methods. Meanwhile, develop academic paper recommender system based on research on summarization algorithms, the algorithms proposed in the multi-document summarization are evaluated and applied.

现有的多文档自动摘要算法主要致力于单种学习算法的研究,忽略了多种算法之间的协作机制,存在摘要结果不完整、不准确、冗余性较高等问题。项目研究主题模型、谱学习、排序学习、主动学习等多种算法之间的协作机制,构建多策略协同学习框架,以有效应对多文档自动摘要技术中的句子相似度计算、文摘句抽取和文摘句排序问题。重点研究主题模型的有效融合机制,基于谱学习的主题模型参数学习方法,基于句子结构和主题模型的句子相似度衡量,基于MMR方法的冗余度、相关度控制模型,基于主题模型、排序学习、主动学习等方法的面向关键词的文摘句排序和关键词无关的文摘句排序问题。项目在深化研究多文档自动摘要核心理论的同时研制论文推荐系统,达到既验证算法又促进算法实用化的目的。

项目摘要

在被海量信息包围的数据时代,如何更加有效地浏览和查阅互联网上的海量信息,对信息进行合理地筛选和浓缩,已然成为“大数据”时代一项亟需解决的研究课题。多文档自动摘要的目的在于对文本内容进行提炼和总结,方便用户快速获取信息。本项目的主要研究内容可以归纳为以下三个方面:(1)提出主题模型的自适应融合方法和基于无监督学习的词义消歧方法,选取关键语义构造特征向量对文档进行表示,提高句子相似度的计算精度,为文摘句的抽取做准备;(2)引入并定义主题重要性的概念,以此来衡量主题的重要程度,计算句子权重时重点考虑句子主题和文档重要主题的相似性,从而有效过滤文摘句的冗余信息;(3)为了寻找权重和相似度都相对较高的句子作为文摘句,我们把这两个数值映射到二维坐标系中,用最大向量法来解决句子的排序问题。同时,我们将用户描述成文档,将项目描述成单词,利用主题模型将用户表示成主题的分布,主题表示成项目的多项式分布,以便更好地发现用户、项目之间的潜在关联性。用户(项目)之间的相似度用混合相似度来衡量,从而增强推荐的质量,形成更准确的摘要句排序。本项目按照原定计划,基本完成了申报书中的研究目标和研究内容。基于以上研究内容,本项目组发表重要论文17篇,其中SCI检索6篇,EI检索8篇,CSCD核心期刊3篇,专利1项,原型系统1个,培养研究生1名。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
3

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

刘娜的其他基金

批准号:51301157
批准年份:2013
资助金额:25.00
项目类别:青年科学基金项目
批准号:81872397
批准年份:2018
资助金额:57.00
项目类别:面上项目
批准号:31000651
批准年份:2010
资助金额:20.00
项目类别:青年科学基金项目
批准号:51603040
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:11501043
批准年份:2015
资助金额:17.00
项目类别:青年科学基金项目
批准号:71901033
批准年份:2019
资助金额:20.00
项目类别:青年科学基金项目
批准号:41807400
批准年份:2018
资助金额:25.00
项目类别:青年科学基金项目
批准号:31300015
批准年份:2013
资助金额:23.00
项目类别:青年科学基金项目
批准号:30900635
批准年份:2009
资助金额:20.00
项目类别:青年科学基金项目
批准号:81200492
批准年份:2012
资助金额:24.00
项目类别:青年科学基金项目
批准号:61871340
批准年份:2018
资助金额:63.00
项目类别:面上项目
批准号:71702090
批准年份:2017
资助金额:20.00
项目类别:青年科学基金项目
批准号:41202073
批准年份:2012
资助金额:25.00
项目类别:青年科学基金项目
批准号:30973423
批准年份:2009
资助金额:31.00
项目类别:面上项目
批准号:81402820
批准年份:2014
资助金额:23.00
项目类别:青年科学基金项目
批准号:11604090
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:41072170
批准年份:2010
资助金额:52.00
项目类别:面上项目
批准号:40702039
批准年份:2007
资助金额:19.00
项目类别:青年科学基金项目
批准号:81470991
批准年份:2014
资助金额:73.00
项目类别:面上项目
批准号:51673057
批准年份:2016
资助金额:61.00
项目类别:面上项目
批准号:81400272
批准年份:2014
资助金额:23.00
项目类别:青年科学基金项目
批准号:41572217
批准年份:2015
资助金额:84.00
项目类别:面上项目
批准号:31701721
批准年份:2017
资助金额:25.00
项目类别:青年科学基金项目
批准号:31800221
批准年份:2018
资助金额:25.00
项目类别:青年科学基金项目
批准号:21304027
批准年份:2013
资助金额:25.00
项目类别:青年科学基金项目
批准号:20307003
批准年份:2003
资助金额:21.00
项目类别:青年科学基金项目
批准号:41106023
批准年份:2011
资助金额:25.00
项目类别:青年科学基金项目
批准号:81670690
批准年份:2016
资助金额:58.00
项目类别:面上项目
批准号:81600124
批准年份:2016
资助金额:17.00
项目类别:青年科学基金项目
批准号:61703265
批准年份:2017
资助金额:24.00
项目类别:青年科学基金项目
批准号:21502224
批准年份:2015
资助金额:21.00
项目类别:青年科学基金项目
批准号:30400535
批准年份:2004
资助金额:21.00
项目类别:青年科学基金项目
批准号:81370484
批准年份:2013
资助金额:70.00
项目类别:面上项目
批准号:41705121
批准年份:2017
资助金额:24.00
项目类别:青年科学基金项目
批准号:11501481
批准年份:2015
资助金额:18.00
项目类别:青年科学基金项目
批准号:41372236
批准年份:2013
资助金额:98.00
项目类别:面上项目
批准号:31200741
批准年份:2012
资助金额:25.00
项目类别:青年科学基金项目
批准号:31401878
批准年份:2014
资助金额:24.00
项目类别:青年科学基金项目
批准号:40706015
批准年份:2007
资助金额:18.00
项目类别:青年科学基金项目
批准号:31771636
批准年份:2017
资助金额:58.00
项目类别:面上项目
批准号:41806035
批准年份:2018
资助金额:25.00
项目类别:青年科学基金项目
批准号:31670998
批准年份:2016
资助金额:64.00
项目类别:面上项目
批准号:31872114
批准年份:2018
资助金额:60.00
项目类别:面上项目

相似国自然基金

1

基于hLDA层次主题模型的中文多文档摘要研究

批准号:61202247
批准年份:2012
负责人:李蕾
学科分类:F0211
资助金额:22.00
项目类别:青年科学基金项目
2

基于深度语义表示和多文档摘要的学术文献自动综述研究

批准号:71904058
批准年份:2019
负责人:丁恒
学科分类:G0414
资助金额:18.50
项目类别:青年科学基金项目
3

基于反馈式排序框架F-Rank的查询导向的更新式多文档自动摘要研究

批准号:61070083
批准年份:2010
负责人:彭敏
学科分类:F0211
资助金额:29.00
项目类别:面上项目
4

基于词义的文档表示模型及多语亚文档主题分析研究

批准号:61272233
批准年份:2012
负责人:夏云庆
学科分类:F0211
资助金额:82.00
项目类别:面上项目