基于大规模主题建模和用户行为分析的微博检索方法研究

基本信息

批准号：61572223

项目类别：面上项目

资助金额：63.00

负责人：涂新辉

学科分类：

依托单位：华中师范大学

批准年份：2015

结题年份：2019

起止时间：2016-01-01 - 2019-12-31

项目状态：已结题

项目参与者：张勇,陈龙,赵永标,王艳,周国亮,高明,韩潇,安军辉,陈雅兰

关键词：

信息检索文档语言模型微博检索

结项摘要

With the exponential growth of the amount of microblog information, microblog search engines have become important platforms for information access. In microblog retrieval, both queries and documents are short, which leads to an even worse data sparseness problem. In addition, the authorities of documents are quite different. These characteristics of microblog information have seriously hampered the quality of microblog retrieval service. In this project, we propose language-model based microblog retrieval approaches, which can improve the effectiveness of microblog retrieval by utilizing big topic model and user behavior analysis. First, we use big topic modeling technology to discover topics in massive microblog documents, and build topic-based document language models; Secondly, microblog content and user behavior information are used in combination to model user preference, which are further used to build personalized query models; Then, the authorities of the documents can be calculated by analyzing the query-oriented local user-document graph, which is build based on the user behavior information. Finally, the document models, the query models and the authority information are integrated into a unified retrieval model. This project can help to consummate the study of microblog information retrieval, and to enhance the development of intelligence microblog search engines.

随着微博平台上信息量呈指数级的增长，微博搜索引擎已成为一种重要的信息获取平台。在微博信息检索中，查询和文档更加简短，因此数据稀疏性问题将更加严重。另外，不同微博用户的权威性有较大差异。微博信息的这些特点严重制约了微博检索系统的服务质量。本课题组拟提出一套基于语言模型框架的微博信息检索方法，利用大规模主题建模技术和用户行为分析提高微博信息检索的效果。首先，通过大规模主题建模技术挖掘微博文本中丰富的语义信息，并结合主题信息构建文档语言模型；其次，利用微博内容和用户行为信息对用户兴趣偏好建模，并构建个性化查询模型；然后，通过微博用户行为分析生成面向查询的局部用户-微博贴关系图并计算微博贴权威性。最后，整合文档模型、查询模型和微博贴权威性信息构建面向微博的信息检索模型。本课题研究对完善微博信息检索方法的研究体系，对提高微博搜索引擎的智能化水平都将具有重要意义。

项目摘要

随着微博平台上信息量呈指数级的增长，微博搜索引擎已成为一种重要的信息获取平台。在微博信息检索中，查询和文档更加简短，因此数据稀疏性问题将更加严重。另外，不同微博用户的权威性有较大差异。微博信息的这些特点严重制约了微博检索系统的服务质量。本项目组计划构建新的微博信息检索系统，通过文本内容分析和用户行为分析以提高微博信息检索系统的服务质量。在项目执行期间，本项目组顺利完成了项目申请书中的各项研究计划，主要研究内容包括以下几个方面：①由于微博等短文本的数据稀疏性，传统的主题模型无法有效地处理。针对微博等短文本的特点，结合外部的语义网知识，我们构建了多种不同的主题模型，能够更加有效对短文本建模，并将其应用到信息检索等任务中；②从直觉上看，信息检索模型中词语的重要性不仅取决于文档长度、词语在文档和文档集中的词频这三个特征，同时还与这个词语的其它方面的特征有关。我们尝试将词语的语义一致性等特征平滑融入到传统的信息检索框架，构建了更加有效的信息检索模型；③微博平台中用户可以关注其它微博用户，还可以发布和转发微博帖。我们结合微博用户行为分析构建了新的微博信息检索模型，取得了较好效果；④近年来，深度学习已成功应用在各种不同的自然语言处理任务中并且取得了重大进展。我们构建了多种基于深度学习的文本建模方法，能够在一定程度上解决短文本中数据稀疏性的问题，进一步改进自然语言处理任务的性能。在项目全体成员的努力下，本项目组取得了预期的研究成果：发表学术论文13篇，其中7篇发表在SIGIR、WWW、WSDM和JASIS 等信息检索领域的权威会议和期刊上；发布了基于Python的信息检索实验平台，提供给其他研究人员自由使用；申请了专利2项和软件著作权1项；参加了国际信息检索评测(TREC 2019 Deep Learning) ;培养了信息检索领域的硕士研究生9名，协助培养了博士生2名。本课题研究对完善微博信息检索方法的研究体系，对提高微博搜索引擎的智能化水平都具有重要意义。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：

发表时间：

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：10.3724/SP.J.1089.2019.17435

发表时间：2019

DOI：

发表时间：2020

涂新辉的其他基金

相似国自然基金

大规模Web共享图像的关联分析和主题检索

批准号：61103099

批准年份：2011

负责人：鲁伟明

学科分类：F0214

资助金额：21.00

项目类别：青年科学基金项目

面向微博的用户动态兴趣建模和智能推荐方法研究

批准号：61702176

批准年份：2017

负责人：杨超

学科分类：F0207

资助金额：21.00

项目类别：青年科学基金项目

基于随机博弈网的微博用户行为及信息传播分析

批准号：61303244

批准年份：2013

负责人：李静远

学科分类：F0206

资助金额：25.00

项目类别：青年科学基金项目

基于用户建模的个性化微博排序研究

批准号：61402242

批准年份：2014

负责人：陈晨

学科分类：F0211

资助金额：26.00

项目类别：青年科学基金项目

基于大规模主题建模和用户行为分析的微博检索方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

一种基于多层设计空间缩减策略的近似高维优化方法

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

二维FM系统的同时故障检测与控制

信息熵-保真度联合度量函数的单幅图像去雾方法

扶贫资源输入对贫困地区分配公平的影响

涂新辉的其他基金

相似国自然基金