Existing multi-document summarization algorithm mainly focus on a single learning algorithm and ignore the cooperation among multiple algorithm, which leads to incomplete, inaccurate and high redundancy of summarization result. This project establishes the multi-strategies cooperative learning framework to research the issue of sentence similarity calculation, extraction of sentence and ranking of sentence in multi-documents summarization, by developing the co-working mechanism of multiple algorithms including topic model, spectral learning, ranking learning and active learning, etc.Our research mainly concentrates on mixture topic model, parameter estimation based on spectral learning, similarity based on clause substructure and topic model, control model of redundancy and relativity according MMR algorithm, keywords-dependent and keywords-independent summarization sentence ranking using topic model, ranking learning and active learning methods. Meanwhile, develop academic paper recommender system based on research on summarization algorithms, the algorithms proposed in the multi-document summarization are evaluated and applied.
现有的多文档自动摘要算法主要致力于单种学习算法的研究,忽略了多种算法之间的协作机制,存在摘要结果不完整、不准确、冗余性较高等问题。项目研究主题模型、谱学习、排序学习、主动学习等多种算法之间的协作机制,构建多策略协同学习框架,以有效应对多文档自动摘要技术中的句子相似度计算、文摘句抽取和文摘句排序问题。重点研究主题模型的有效融合机制,基于谱学习的主题模型参数学习方法,基于句子结构和主题模型的句子相似度衡量,基于MMR方法的冗余度、相关度控制模型,基于主题模型、排序学习、主动学习等方法的面向关键词的文摘句排序和关键词无关的文摘句排序问题。项目在深化研究多文档自动摘要核心理论的同时研制论文推荐系统,达到既验证算法又促进算法实用化的目的。
在被海量信息包围的数据时代,如何更加有效地浏览和查阅互联网上的海量信息,对信息进行合理地筛选和浓缩,已然成为“大数据”时代一项亟需解决的研究课题。多文档自动摘要的目的在于对文本内容进行提炼和总结,方便用户快速获取信息。本项目的主要研究内容可以归纳为以下三个方面:(1)提出主题模型的自适应融合方法和基于无监督学习的词义消歧方法,选取关键语义构造特征向量对文档进行表示,提高句子相似度的计算精度,为文摘句的抽取做准备;(2)引入并定义主题重要性的概念,以此来衡量主题的重要程度,计算句子权重时重点考虑句子主题和文档重要主题的相似性,从而有效过滤文摘句的冗余信息;(3)为了寻找权重和相似度都相对较高的句子作为文摘句,我们把这两个数值映射到二维坐标系中,用最大向量法来解决句子的排序问题。同时,我们将用户描述成文档,将项目描述成单词,利用主题模型将用户表示成主题的分布,主题表示成项目的多项式分布,以便更好地发现用户、项目之间的潜在关联性。用户(项目)之间的相似度用混合相似度来衡量,从而增强推荐的质量,形成更准确的摘要句排序。本项目按照原定计划,基本完成了申报书中的研究目标和研究内容。基于以上研究内容,本项目组发表重要论文17篇,其中SCI检索6篇,EI检索8篇,CSCD核心期刊3篇,专利1项,原型系统1个,培养研究生1名。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
基于hLDA层次主题模型的中文多文档摘要研究
基于深度语义表示和多文档摘要的学术文献自动综述研究
基于反馈式排序框架F-Rank的查询导向的更新式多文档自动摘要研究
基于词义的文档表示模型及多语亚文档主题分析研究