基于hLDA层次主题模型的中文多文档摘要研究

基本信息
批准号:61202247
项目类别:青年科学基金项目
资助金额:22.00
负责人:李蕾
学科分类:
依托单位:北京邮电大学
批准年份:2012
结题年份:2015
起止时间:2013-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:周延泉,刘咏彬,王骏,刘平安,王志青,衡伟,王博远,于佳
关键词:
摘要润色生成层次主题模型中文多文档摘要无监督多文档集建模多特征摘要句抽取
结项摘要

Multi-document summarization is an important technology for text compression. It aims to generate a brief and coherent summary, which should be objective and exactly reflect the contents of the original documents and minimize redundancy. It will surely be helpful for large scale network information service. This project aims to work on a new Chinese multi-document summarization method based on hierarchical topic model of hierarchical Latent Dirichlet Allocation (hLDA) with better performance,robustness and usability. It's special in using hLDA for Chinese multi-document modeling without the direction of desired summary and improving the model through Chinese language analysis. The hLDA is a representative generative probabilistic model. It not only can mine latent topics from a large amount of discrete data and organize these topics into a hierarchy to achieve a deeper semantic analysis, but also can adapt itself to the growing data. There are some new features in this project compared with existed English work. It's aimed for Chinese lauguage. It will work out a simple and applicable unsupervised multi-document summarization method without the known desired summary as the supervisor for machine learning based data modeling. The model will be analyzed and improved according to the Chinese language cognition by human in detailed. Chinese word and sentence analysis and similarity computing will all be included to study the topic path clustering and separation, word level in path, etc. Candidate summary sentences will be chosen according to the information fusion between language characteristics and latent topic path and the abstraction levels of words. The oulined steps are as followed. Firstly, we make sentence as the basic processing unit to build the original hLDA hierarchical topic model for the set of documents. It mainly uses nested Chinese restaurant process to learn the structure of the tree as a prior and adopts Gibbs sampling algorithm to obtain the posterior latent topic distributions. Secondly, we analyze the model result and improve it. We will mainly analyze the semantic meaning of the topic path, the levels of words in the path and the relation between sentences with word link. We will also study the effect of the parameter setting to the tree structure and topics so as to find the best parameter setting method for generating the best Chinese hLDA topic model. Then, we will integrate the newborn sentence features from hLDA topic model with those Chinese language features to extract the most representative candidate summary sentences. Finally, we generate the multi-document summary result through redundancy removal, sentence re-ordering and words refinement.

多文档摘要是一种文本浓缩技术,旨在为多篇文档生成一篇能概括主要内容的摘要,对海量信息服务具有很好的应用价值。本项目的特色是采用hLDA为中文多文档数据集建模,与中文语言特点相结合进行结果分析与模型优化,探索性能更好适用性更强的中文多文档摘要新方法。hLDA是一种无监督贝叶斯非参方法,不仅能在大规模离散无结构数据中挖掘潜在主题,组织成更符合人类认知的层次语义结构,而且能自动适应开放数据集的增长。相对已有的英文hLDA摘要,本项目的创新点主要有:专门针对中文多文档语料集展开研究,将实现一种简单易行的无监督方法,不需要借助理想摘要的指导,对hLDA建模结果在中文语言应用上的优缺点进行深入分析,包括结合中文词法、句法分析及相似度计算等对主题路径的聚集与分离、词语层次分布等详细信息与人类认知的语义结构进行比较,并进行模型优化,充分利用潜在主题路径及主题间抽象层次关系,融合语言特征来实现文摘句抽取。

项目摘要

多文档摘要是一种从海量信息中挖掘主旨核心价值的信息处理技术。本项目研究之初,中文多文档摘要技术还不够成熟,亟待更进一步的完善。本项目从hLDA算法出发,研究该算法的原理,将该算法的特点和中文多文档摘要任务相结合,探索和改进中文多文档摘要技术。hLDA是一种无监督、自适应的层次主题建模算法,这是在主题模型理论崛起之后的新的理论高峰,它能够从海量数据中挖掘出数据的主题信息,并使之层次化,更符合人类的思考角度。本项目从hLDA的基本原理开始分析和研究,在此基础上对其建模结果再进行深入的分析、挖掘和应用。在对hLDA实现深度掌握后,我们尝试了改进hLDA算法,提出了加入作者因素的hLDA算法,使之能够适应于社交文本的中文多文档摘要,并且深入挖掘了hLDA算法中的语义特征。在研究和分析hLDA的过程中,我们研制了多个基于hLDA模型的中文多文档摘要系统,先后参与了多项国际会议评测ACL MultiLing 2013 workshop, TAC 2014, Sigdial MultiLing 2015, NLPCC 2015,并取得了优良的成绩,证明了我们系统的有效性。通过总结研究成果,我们在国内外重要会议或期刊上发表学术论文17篇,申请国家发明专利2项,获得国家发明专利授权1项。在实验过程中,我们也积累了海量的研究数据,可供研究者共享。在不断的研究和完善基于hLDA的中文多文档摘要技术过程中,本项目也培养了一批优秀的硕士生和博士生,为中文多文档摘要技术领域趋于完善奠定了基础。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
4

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

李蕾的其他基金

批准号:81201553
批准年份:2012
资助金额:23.00
项目类别:青年科学基金项目
批准号:81200434
批准年份:2012
资助金额:24.00
项目类别:青年科学基金项目
批准号:31260068
批准年份:2012
资助金额:55.00
项目类别:地区科学基金项目
批准号:81500133
批准年份:2015
资助金额:18.00
项目类别:青年科学基金项目
批准号:81872253
批准年份:2018
资助金额:60.00
项目类别:面上项目
批准号:11505010
批准年份:2015
资助金额:22.00
项目类别:青年科学基金项目
批准号:81502254
批准年份:2015
资助金额:18.00
项目类别:青年科学基金项目
批准号:31660538
批准年份:2016
资助金额:40.00
项目类别:地区科学基金项目
批准号:31471109
批准年份:2014
资助金额:86.00
项目类别:面上项目
批准号:31201472
批准年份:2012
资助金额:25.00
项目类别:青年科学基金项目
批准号:31600014
批准年份:2016
资助金额:19.00
项目类别:青年科学基金项目
批准号:31700674
批准年份:2017
资助金额:24.00
项目类别:青年科学基金项目
批准号:21177049
批准年份:2011
资助金额:58.00
项目类别:面上项目
批准号:11775027
批准年份:2017
资助金额:54.00
项目类别:面上项目
批准号:51708057
批准年份:2017
资助金额:20.00
项目类别:青年科学基金项目
批准号:11904033
批准年份:2019
资助金额:22.00
项目类别:青年科学基金项目
批准号:81370549
批准年份:2013
资助金额:70.00
项目类别:面上项目
批准号:21706259
批准年份:2017
资助金额:25.00
项目类别:青年科学基金项目
批准号:51904324
批准年份:2019
资助金额:25.00
项目类别:青年科学基金项目
批准号:21702087
批准年份:2017
资助金额:25.00
项目类别:青年科学基金项目
批准号:20773010
批准年份:2007
资助金额:28.00
项目类别:面上项目
批准号:20762014
批准年份:2007
资助金额:19.00
项目类别:地区科学基金项目
批准号:21677060
批准年份:2016
资助金额:64.00
项目类别:面上项目
批准号:21162036
批准年份:2011
资助金额:45.00
项目类别:地区科学基金项目
批准号:21304058
批准年份:2013
资助金额:25.00
项目类别:青年科学基金项目

相似国自然基金

1

基于谱主题模型的多文档自动摘要算法研究

批准号:61402069
批准年份:2014
负责人:刘娜
学科分类:F0607
资助金额:24.00
项目类别:青年科学基金项目
2

基于词义的文档表示模型及多语亚文档主题分析研究

批准号:61272233
批准年份:2012
负责人:夏云庆
学科分类:F0211
资助金额:82.00
项目类别:面上项目
3

基于深度语义表示和多文档摘要的学术文献自动综述研究

批准号:71904058
批准年份:2019
负责人:丁恒
学科分类:G0414
资助金额:18.50
项目类别:青年科学基金项目
4

基于反馈式排序框架F-Rank的查询导向的更新式多文档自动摘要研究

批准号:61070083
批准年份:2010
负责人:彭敏
学科分类:F0211
资助金额:29.00
项目类别:面上项目