面向短文本的主题建模研究

基本信息
批准号:61602204
项目类别:青年科学基金项目
资助金额:20.00
负责人:李熙铭
学科分类:
依托单位:吉林大学
批准年份:2016
结题年份:2019
起止时间:2017-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:周晓堂,迟晋进,李长春,刘杨,张昂,王悦
关键词:
高噪声稀疏问题在线学习动态建模短文本主题建模
结项摘要

Topic modeling can effectively uncover the latent structures and semantics of short text collections, and then use these to help explore valuable information behind massive short texts. However, the characteristics of short texts, such as sparse content, high noise, freshness of topics and rapid growth of new texts, lead to unsound topic modeling performance, and even unusable results. To address these problems, this project proposes new topic modeling algorithms over short texts by considering corpus-level word information and using unsupervised learning method to expand short texts, considering time information to improve model structure and designing fast inference algorithms. This project aims to investigate the following problems: the topic modeling methods that can overcome the sparse and noise problems, expression mechanism of bursty topics and news topics in a dynamic topic modeling framework, specific fast inference algorithms for short text topic models. The research findings of this project lays a technical foundation for real short text related tasks in social media.

利用主题模型建模短文本,可以有效地挖掘文本隐含语义,进而深入挖掘海量短文本中的有价值信息。然而,短文本词项稀疏、高噪声、时效性强和规模高速增长等特点导致已有方法的主题建模效果不理想,甚至不可用。为解决这些问题,本项目拟通过充分利用文本集层面的词信息和无监督学习技术扩充短文本、考虑时间戳增强模型的动态表达能力和设计快速推理算法等策略,进而提出适用于短文本的主题建模新方法,提高短文本主题建模和语义挖掘效果。本项目拟开展:可包容稀疏词项、高噪声的短文本建模方法研究;动态短文本主题建模、突发主题和新主题的描述机制研究;针对短文本主题模型特殊结构的快速推理算法研究。本项目的研究成果可为社交媒体上的短文本实际应用任务奠定技术基础。

项目摘要

随着社交媒体的普及,短文本成为一种重要的数据类型。利用主题模型建模短文本,可以有效地挖掘文本隐含语义,进而深入挖掘海量短文本中的有价值信息。然而,短文本词项稀疏、高噪声、时效性强和规模高速增长等特点导致已有方法的主题建模效果不理想,甚至不可用。针对这些问题,本项目展开以下主要研究内容:.1..针对短文本的稀疏问题展开研究。提出基于自动聚类框架的隐含主题模型,通过自适应地合并关联短文本构成伪长文本,对伪长文本主题推理,从而间接增加文本层面的词量;提出相关词对主题模型,利用词嵌入技术构建隐含词对,在数据集层面增加词共现信息;提出拉普拉斯狄利克雷混合模型,利用流形约束链接相似文本,在文本层面间接增加词共现信息。.2..面向弱监督文本数据展开研究。基于种子词的文本分类方法可以有效减少人工收集标注训练集的开销,然而,种子词提供的有监督信息却十分有限。对此,提出伪标签朴素贝叶斯算法,利用种子词构建伪训练集,在期望最大化算法框架下,同时迭代优化朴素贝叶斯分类器的参数和更新伪训练集;提出拉普拉斯种子主题模型,使用文本流形约束相似文本之间的标签主题传递有监督信息,从而间接丰富有监督信息。.3..贝叶斯模型推理算法研究。黑盒变分推理算法是一种常用的贝叶斯模型推理算法,使用蒙特卡洛梯度近似真实梯度,然而蒙特卡洛梯度的误差(方差)通常较大,影响推理效果。对此,提出自适应重要性采样的黑盒变分推理算法,利用内嵌的最优提议分布估计过程,计算重要性采样的最优提议分布,从而减少蒙特卡洛梯度的方差;提出一种通用的黑盒期望传播算法,该算法使用蒙特卡洛近似计算期望传播中的矩匹配步骤,有效避免模型依赖性。..上述工作为短文本主题建模领域的研究提供了新算法和新思路,为解决日益增加的短文本数据挖掘和信息检索的实际应用任务奠定技术基础。..关键词:短文本,主题模型,弱监督学习,模型推理

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
3

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015
4

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

李熙铭的其他基金

相似国自然基金

1

面向功能挖掘的代码主题建模技术研究

批准号:61472007
批准年份:2014
负责人:赵俊峰
学科分类:F0203
资助金额:80.00
项目类别:面上项目
2

基于元信息关联网络的半结构短文本主题语义建模研究

批准号:61702367
批准年份:2017
负责人:王嫄
学科分类:F0211
资助金额:27.00
项目类别:青年科学基金项目
3

高性能基于主题的文本聚类研究

批准号:60703058
批准年份:2007
负责人:赵颖
学科分类:F0201
资助金额:20.00
项目类别:青年科学基金项目
4

海量实时动态文本流在线主题分析研究

批准号:61402036
批准年份:2014
负责人:毛先领
学科分类:F0211
资助金额:26.00
项目类别:青年科学基金项目