海量实时动态文本流在线主题分析研究

基本信息
批准号:61402036
项目类别:青年科学基金项目
资助金额:26.00
负责人:毛先领
学科分类:
依托单位:北京理工大学
批准年份:2014
结题年份:2017
起止时间:2015-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:黄永刚,魏骁驰,刘全超,周强,刘至润,梅莉莉
关键词:
动态文本流在线学习主题解释主题建模
结项摘要

Aiming at the dynamic characteristic and the quick response challenges of traditional topic analysis technology, designing effective online topic analysis frameworks which can capture the inherent characteristics of text stream, has become a promising research direction. The existing methods, however, suffer from the following three limitations. (1) cannot capture the inherent law of text stream perfectly; (2) learning algorithms of models need to improve efficiency; (3) time-consuming problem in topic labeling; In this project, we are going to investigate and improve the topic analysis technology for text stream in accuracy and efficiency. For the first limitation, the hierarchical Dirichlet stochastic processes and the Brownian motion will be employed to capture the change of topic number, the topic evolution and the dynamic change of vocabulary, and then a generative model which combines these dynamic characteristics and the basic component of topic modeling will be proposed; for the second limitation, a novel online learning algorithm will be proposed to improve efficiency by the variance reduction methods of gradient descent direction; and for the third limitation, through translating the topic labeling problem into K-nearest neighbor search problem in space, and using the hash similarity principle to improve the distance calculation efficiency between two probability distributions, the high algorithm complexity of topic labeling can be solved. Finally, all the above three components are integrated as a unified online topic analysis tool, and will effectively enhance the accuracy and efficiency of online topic analysis for text stream.

针对传统主题分析技术在本文流的动态性描述和快速处理上面临的挑战,设计有效适应文本流内在特性的快速主题分析方法已成为主题建模领域研究的热点。而现有方法存在刻画文本流动态规律片面、学习算法效率亟待提高、主题解释算法复杂度过高等问题。为此,本课题拟从准确性和效率两个角度深入研究并改进动态文本流的在线主题分析方法。首先,通过层次狄利克雷随机过程和布朗运动等数学模型刻画文本流的主题个数变化、主题演化和词汇变化等动态特性,并通过生成模型方式将这些动态特性与主题模型基本组件进行有机结合,达到准确地刻画了文本流内在规律的目的;其次,通过设计减小梯度下降方向方差的方法提升主题模型在线学习算法效率;最后,通过将主题解释问题转化为概率分布空间中K最近邻查找问题,以准确而高效地解决主题解释算法复杂度过高的问题。通过上述工作,将有效地提升文本流主题分析的准确性和效率。

项目摘要

本课题的主要目标是针对传统主题分析技术在本文流的动态性描述和快速处理上面临的挑战,设计有效适应文本流内在特性的快速主题分析方法。具体地,从准确性和效率两个角度深入研究并改进动态文本流的在线主题分析方法。首先,通过数学模型刻画文本流的主题个数变化、主题演化和词汇变化等动态特性,并通过生成模型方式将这些动态特性与主题模型基本组件进行有机结合,达到准确地刻画了文本流内在规律的目的;其次,通过设计减小梯度下降方向方差的方法提升主题模型在线学习算法效率;最后,通过将主题解释问题转化为概率分布空间中K最近邻查找问题,以准确而高效地解决主题解释算法复杂度过高的问题。通过上述工作,课题组按原定计划顺利开展了研究,并取得预期的成果,已超额完成了预期的考核指标。 迄今为止,本项目在国际期刊和会议发表学术论文17篇,SCI收录5篇,EI收录12篇,其中包括国计算机协会推荐A类期刊会议4篇、B类期刊会议2篇,C类期刊会议5篇、国内核心期刊2篇,国际会议学术报告15人次;申请国家发明专利2项。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
3

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020
4

针灸治疗胃食管反流病的研究进展

针灸治疗胃食管反流病的研究进展

DOI:
发表时间:2022
5

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

DOI:
发表时间:2020

毛先领的其他基金

批准号:61772076
批准年份:2017
资助金额:61.00
项目类别:面上项目

相似国自然基金

1

海量数据流实时分发技术研究

批准号:61502513
批准年份:2015
负责人:马行空
学科分类:F0202
资助金额:20.00
项目类别:青年科学基金项目
2

面向短文本的主题建模研究

批准号:61602204
批准年份:2016
负责人:李熙铭
学科分类:F06
资助金额:20.00
项目类别:青年科学基金项目
3

社交文本流中的实时事件监测和摘要

批准号:61073082
批准年份:2010
负责人:闫宏飞
学科分类:F0211
资助金额:32.00
项目类别:面上项目
4

海量移动对象轨迹数据流实时分析算法研究

批准号:61402155
批准年份:2014
负责人:张瑞
学科分类:F0202
资助金额:25.00
项目类别:青年科学基金项目