基于大规模主题建模和用户行为分析的微博检索方法研究

基本信息
批准号:61572223
项目类别:面上项目
资助金额:63.00
负责人:涂新辉
学科分类:
依托单位:华中师范大学
批准年份:2015
结题年份:2019
起止时间:2016-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:张勇,陈龙,赵永标,王艳,周国亮,高明,韩潇,安军辉,陈雅兰
关键词:
信息检索文档语言模型微博检索
结项摘要

With the exponential growth of the amount of microblog information, microblog search engines have become important platforms for information access. In microblog retrieval, both queries and documents are short, which leads to an even worse data sparseness problem. In addition, the authorities of documents are quite different. These characteristics of microblog information have seriously hampered the quality of microblog retrieval service. In this project, we propose language-model based microblog retrieval approaches, which can improve the effectiveness of microblog retrieval by utilizing big topic model and user behavior analysis. First, we use big topic modeling technology to discover topics in massive microblog documents, and build topic-based document language models; Secondly, microblog content and user behavior information are used in combination to model user preference, which are further used to build personalized query models; Then, the authorities of the documents can be calculated by analyzing the query-oriented local user-document graph, which is build based on the user behavior information. Finally, the document models, the query models and the authority information are integrated into a unified retrieval model. This project can help to consummate the study of microblog information retrieval, and to enhance the development of intelligence microblog search engines.

随着微博平台上信息量呈指数级的增长,微博搜索引擎已成为一种重要的信息获取平台。在微博信息检索中,查询和文档更加简短,因此数据稀疏性问题将更加严重。另外,不同微博用户的权威性有较大差异。微博信息的这些特点严重制约了微博检索系统的服务质量。本课题组拟提出一套基于语言模型框架的微博信息检索方法,利用大规模主题建模技术和用户行为分析提高微博信息检索的效果。首先,通过大规模主题建模技术挖掘微博文本中丰富的语义信息,并结合主题信息构建文档语言模型;其次,利用微博内容和用户行为信息对用户兴趣偏好建模,并构建个性化查询模型;然后,通过微博用户行为分析生成面向查询的局部用户-微博贴关系图并计算微博贴权威性。最后,整合文档模型、查询模型和微博贴权威性信息构建面向微博的信息检索模型。本课题研究对完善微博信息检索方法的研究体系,对提高微博搜索引擎的智能化水平都将具有重要意义。

项目摘要

随着微博平台上信息量呈指数级的增长,微博搜索引擎已成为一种重要的信息获取平台。在微博信息检索中,查询和文档更加简短,因此数据稀疏性问题将更加严重。另外,不同微博用户的权威性有较大差异。微博信息的这些特点严重制约了微博检索系统的服务质量。本项目组计划构建新的微博信息检索系统,通过文本内容分析和用户行为分析以提高微博信息检索系统的服务质量。在项目执行期间,本项目组顺利完成了项目申请书中的各项研究计划,主要研究内容包括以下几个方面:①由于微博等短文本的数据稀疏性,传统的主题模型无法有效地处理。针对微博等短文本的特点,结合外部的语义网知识,我们构建了多种不同的主题模型,能够更加有效对短文本建模,并将其应用到信息检索等任务中;②从直觉上看,信息检索模型中词语的重要性不仅取决于文档长度、词语在文档和文档集中的词频这三个特征,同时还与这个词语的其它方面的特征有关。我们尝试将词语的语义一致性等特征平滑融入到传统的信息检索框架,构建了更加有效的信息检索模型;③微博平台中用户可以关注其它微博用户,还可以发布和转发微博帖。我们结合微博用户行为分析构建了新的微博信息检索模型,取得了较好效果;④近年来,深度学习已成功应用在各种不同的自然语言处理任务中并且取得了重大进展。我们构建了多种基于深度学习的文本建模方法,能够在一定程度上解决短文本中数据稀疏性的问题,进一步改进自然语言处理任务的性能。在项目全体成员的努力下,本项目组取得了预期的研究成果:发表学术论文13篇,其中7篇发表在SIGIR、WWW、WSDM和JASIS 等信息检索领域的权威会议和期刊上;发布了基于Python的信息检索实验平台,提供给其他研究人员自由使用;申请了专利2项和软件著作权1项;参加了国际信息检索评测(TREC 2019 Deep Learning) ;培养了信息检索领域的硕士研究生9名,协助培养了博士生2名。本课题研究对完善微博信息检索方法的研究体系,对提高微博搜索引擎的智能化水平都具有重要意义。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

货币政策与汇率制度对国际收支的影响研究

货币政策与汇率制度对国际收支的影响研究

DOI:
发表时间:2022

涂新辉的其他基金

相似国自然基金

1

大规模Web共享图像的关联分析和主题检索

批准号:61103099
批准年份:2011
负责人:鲁伟明
学科分类:F0214
资助金额:21.00
项目类别:青年科学基金项目
2

面向微博的用户动态兴趣建模和智能推荐方法研究

批准号:61702176
批准年份:2017
负责人:杨超
学科分类:F0207
资助金额:21.00
项目类别:青年科学基金项目
3

基于随机博弈网的微博用户行为及信息传播分析

批准号:61303244
批准年份:2013
负责人:李静远
学科分类:F0206
资助金额:25.00
项目类别:青年科学基金项目
4

基于用户建模的个性化微博排序研究

批准号:61402242
批准年份:2014
负责人:陈晨
学科分类:F0211
资助金额:26.00
项目类别:青年科学基金项目