基于带有通配符序列模式和主题模型的短文本表示研究

基本信息
批准号:61503116
项目类别:青年科学基金项目
资助金额:19.00
负责人:谢飞
学科分类:
依托单位:合肥师范学院
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:张玉红,周晓,强继朋,王庆人,朱强,范庆春,祖弦,刘啸剑,袁二毛
关键词:
短文本表示序列模式通配符概率主题模型
结项摘要

It has unique value to study sequential pattern mining with wildcards in text representation and semantic analysis. It can make up the traditional model that does not consider the ordering of a term in the text and the semantic relations between terms. Aiming at the problems that short texts are sparse and the topics may change with the time going on when traditional models deal with short texts, short text representation based on sequential patterns combined with probabilistic topic model is studied in this project. First, we will design efficient online text sequential pattern mining algorithms with wildcards, and explore the computational complexity of the problem. Then, we study the online learning and inference mechanisms of hidden topics based on sequential patterns. Thirdly, we apply the sequential pattern based topic model to short text classification of Web news titles to improve the efficiency of the personalized news recommendation system. The correctness and validity of the theory and methods proposed are checked according to the system feedback and analysis of experiments. There are three goals of this project. One is to mine sequential patterns with wildcards that capture the semantic relations between terms. The second is to construct the sequential pattern based topic model that is also used in the short text classification system to optimize the parameter settings and perfect the proposed theory and methods. The third is to provide new ideas, theoretical methods and technical supports for the applications of sequential patterns on the domain of text mining.

带有通配符序列模式在文本表示和语义分析中具有独特的研究价值,可以弥补传统文本表示模型存在丢失文本顺序性和特征间语义关系等信息的问题。本课题针对传统文本表示模型在处理短文本时面临着稀疏性和文本主题可能会随时间迁移而动态发生变化等问题,从序列模式挖掘的角度,并结合概率主题模型,研究短文本的表示问题。研究内容包括:设计高效的带有通配符的在线文本序列模式挖掘算法,并探讨问题的计算复杂性;研究基于序列模式的文本主题模型在线学习和推理机制,并将其应用在面向新闻标题数据的短文本分类中,提高个性化新闻推荐系统的效率,根据系统反馈和实验结果的分析,检验所提理论与方法的正确性和有效性。本项目的最终目标是从文本序列中挖掘反映特征间语义关系的带有通配符序列模式,构建基于序列模式的文本主题模型,在短文本分类系统中不断优化参数设置,完善所提的理论与方法,为序列模式在文本挖掘领域的研究提供新的思路、理论方法和支撑。

项目摘要

带有通配符序列模式在文本表示和语义分析中具有独特的研究价值,可以弥补传统文本表示模型存在丢失文本顺序性和特征间语义关系等信息的问题。本课题针对传统文本表示模型在处理短文本时面临着稀疏性和文本主题可能会随时间迁移而动态发生变化等问题,从序列模式挖掘的角度,并结合概率主题模型,研究短文本的表示问题。研究内容包括:设计高效的带有通配符的在线文本序列模式挖掘算法,并探讨问题的计算复杂性;研究基于序列模式的文本主题模型在线学习和推理机制,并将其应用在面向新闻标题数据的短文本分类中,提高个性化新闻推荐系统的效率。. 序列模式挖掘研究方面,提出层次图结构在多项式时间和空间复杂度内表示指数量级模式的候选出现,提高了挖掘的时间效率和解的完备性。针对文本序列,通过一遍扫描获取出现次数超过给定支持度阈值的频繁词语,并记录相应的出现位置,根据词语的出现位置,动态确定相邻项之间的间隔约束,极大地提高了模式挖掘的搜索效率。. 主题模型研究方面,提出一种新的主题模型表示方法,基于长文档是由多个主题组成和短文档仅有一个主题的假设,对长文本和短文本分别采用不同的推理。 .基于序列模式的文本表示研究方面,将挖掘得到带有通配符序列模式用于抽取文档关键词。开发个性化新闻网页推荐与总结系统,根据用户浏览记录,自动推荐用户感兴趣的新闻。针对社交网络中隐式事件突发性,引入关键词特征,将不同时间区间与不同关键词特征绑定,实现对隐式事件突发性的准确识别。 . 在本项目实施过程中,课题组取得了较好的阶段性成果。受本课题资助,已发表SCI期刊论文3篇,EI期刊论文1篇,国际会议论文1篇,CSCD核心期刊论文1篇。本项目研究成果具有三方面意义:1)从文本序列中挖掘带有通配符序列模式可以反映词语间的语义关系的;2)构建基于序列模式的主题模型可以有效的表示短文本信息;3)所提的理论与方法,为序列模式在文本挖掘领域的研究提供新的思路、理论方法和支撑。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

DOI:10.7606/j.issn.1000-7601.2022.03.25
发表时间:2022
4

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

谢飞的其他基金

批准号:31500828
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目
批准号:51171032
批准年份:2011
资助金额:60.00
项目类别:面上项目
批准号:51604150
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:81901276
批准年份:2019
资助金额:20.50
项目类别:青年科学基金项目
批准号:41305036
批准年份:2013
资助金额:26.00
项目类别:青年科学基金项目
批准号:41575039
批准年份:2015
资助金额:70.00
项目类别:面上项目
批准号:U1233121
批准年份:2012
资助金额:40.00
项目类别:联合基金项目

相似国自然基金

1

多语言智能文本处理中基于主题语义空间的文本表示研究

批准号:60372016
批准年份:2003
负责人:赵军
学科分类:F0113
资助金额:22.00
项目类别:面上项目
2

基于深度学习和主题模型的文本特征提取方法研究

批准号:61373067
批准年份:2013
负责人:裴志利
学科分类:F0605
资助金额:77.00
项目类别:面上项目
3

文本分类中的文本图表示模型和结构化稀疏模型研究

批准号:61472183
批准年份:2014
负责人:戴新宇
学科分类:F0211
资助金额:80.00
项目类别:面上项目
4

基于多模态概率主题模型的实体相关文本可视化

批准号:61172143
批准年份:2011
负责人:袁媛
学科分类:F0117
资助金额:60.00
项目类别:面上项目