基于模型的文本聚类关键技术研究及应用

基本信息
批准号:61802231
项目类别:青年科学基金项目
资助金额:25.00
负责人:尹建华
学科分类:
依托单位:山东大学
批准年份:2018
结题年份:2021
起止时间:2019-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:崔星灿,杨敏,王凯熙,贾晓艺,宋晋凯,李威
关键词:
大数据挖掘深度学习文本聚类大数据流处理机器学习
结项摘要

With the rapid development of social networks like Twitter and Sina Microblog, people have become accustomed to obtain information from the social network, and share their views. The social networks are generating a large number of short text at all times. Text clustering is a basic step in many text processing tasks, such as document organization, summarization, content based recommendation and so on. Because of the sparse problem of short text, traditional text clustering algorithms are difficult to achieve the ideal effect. This project first attempts to study the short text clustering algorithm based on Dirichlet process multinomial mixture model and deep learning technology, which can solve the sparse problem of short text and can automatically detect the number of clusters. The text in the social network is essentially generated in the form of stream. This project further proposes a model-based clustering method for text streams, which can automatically discover new clusters and delete expired documents, so as to cope with the concept drift problem. Users may be interested in certain keywords, and hope to access the related information in the social network in real time. This problem can be abstracted as search result diversification of text streams. Based on the above streaming text clustering method and combining with PM-2 diversification algorithm, this project proposes an efficient model-based search result diversification method for text streams.

随着Twitter和新浪微博等社交网络的蓬勃发展,人们已经习惯于从这些社交网络中获取信息,并且分享自己的观点,每天有大量的短文本生成。文本聚类是许多文本处理任务的基础步骤,如文档组织、摘要、基于内容的推荐等。因为短文本的稀疏性特点,传统的文本聚类算法难以取得理想的效果。本项目首先尝试研究基于狄利克雷过程多项式混合模型与深度学习技术的短文本聚类算法,解决短文本的稀疏性问题,并能够自动发现簇的数目。社交网络中的文本本质上是以流的形式出现的,本项目进一步提出基于模型的流文本聚类方法,能够自动发现新的簇,以及删除过期文档,从而应对话题转移问题。用户可能对于某些关键词感兴趣,希望实时了解社交网络中与其相关的信息,这个问题可以抽象为流文本的检索结果多样化问题。本项目尝试在以上提出的流文本聚类方法基础上,与PM-2多样化算法相结合,提出高效的基于模型的流文本检索结果多样化方法。

项目摘要

文本聚类是许多文本处理任务的基础步骤,如文档组织、问答、基于内容的推荐等。因为短文本的稀疏性等问题,传统的文本聚类算法难以取得理想的效果。本项目围绕以下几方面内容开展了相关研究:1)研究了基于模型的短文本聚类算法。致力于通过将短文本表示学习和短文本聚类融合到一个统一的模型中来弥补两者之间的差距,进一步将鲁棒对抗训练引入到最终的模型中,有效地应对了短文本表示的稀疏性问题;2)研究了针对文本流的聚类算法,提出了一种基于模型的短文本流聚类算法,能够很好地处理概念漂移和稀疏性问题,进而提出基于用户专业知识建模的答案选择模型,考虑了静态和动态用户专业知识联合建模;3)研究了检索结果多样化建模方法,设计了一个基于图的顺序网络,同时对用户的动态和多样化兴趣进行建模;提出了一种微视频推荐模型,利用用户之间的相关性协作挖掘用户的多样化融合模式;设计了一个基于图引导的主题排名模型,为社区问答平台的问题推荐多样化的主题。.本项目实施过程中,项目组在国际有影响力的期刊和学术会议上发表(含录用)论文5篇,其中包括CCF A类长文3篇,CCF B类长文1篇。项目研究成果应用到山大-智洋人工智能联合实验室智慧电力项目,以及与河钢集团合作的智慧钢铁项目中。项目负责人作为参与成员获得山东省科技进步一等奖。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
3

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022

尹建华的其他基金

批准号:71473038
批准年份:2014
资助金额:61.00
项目类别:面上项目
批准号:70602021
批准年份:2006
资助金额:17.00
项目类别:青年科学基金项目
批准号:71172106
批准年份:2011
资助金额:44.00
项目类别:面上项目
批准号:11161016
批准年份:2011
资助金额:50.00
项目类别:地区科学基金项目
批准号:11561017
批准年份:2015
资助金额:35.00
项目类别:地区科学基金项目
批准号:61378087
批准年份:2013
资助金额:80.00
项目类别:面上项目
批准号:10861006
批准年份:2008
资助金额:20.00
项目类别:地区科学基金项目
批准号:10401010
批准年份:2004
资助金额:12.00
项目类别:青年科学基金项目
批准号:71874029
批准年份:2018
资助金额:49.00
项目类别:面上项目

相似国自然基金

1

基于图论模型的文本重叠聚类研究

批准号:61202312
批准年份:2012
负责人:吴秦
学科分类:F0605
资助金额:23.00
项目类别:青年科学基金项目
2

基于谱聚类的文本聚类集成方法研究

批准号:60975042
批准年份:2009
负责人:卢志茂
学科分类:F0603
资助金额:32.00
项目类别:面上项目
3

文本语义模型和子空间聚类研究

批准号:60905028
批准年份:2009
负责人:景丽萍
学科分类:F0603
资助金额:19.00
项目类别:青年科学基金项目
4

基于最大公共子图的谱聚类算法在文本聚类中的应用研究

批准号:61363028
批准年份:2013
负责人:陈笑蓉
学科分类:F0211
资助金额:43.00
项目类别:地区科学基金项目