With the exponential growth of the amount of microblog information, microblog search engines have become important platforms for information access. In microblog retrieval, both queries and documents are short, which leads to an even worse data sparseness problem. In addition, the authorities of documents are quite different. These characteristics of microblog information have seriously hampered the quality of microblog retrieval service. In this project, we propose language-model based microblog retrieval approaches, which can improve the effectiveness of microblog retrieval by utilizing big topic model and user behavior analysis. First, we use big topic modeling technology to discover topics in massive microblog documents, and build topic-based document language models; Secondly, microblog content and user behavior information are used in combination to model user preference, which are further used to build personalized query models; Then, the authorities of the documents can be calculated by analyzing the query-oriented local user-document graph, which is build based on the user behavior information. Finally, the document models, the query models and the authority information are integrated into a unified retrieval model. This project can help to consummate the study of microblog information retrieval, and to enhance the development of intelligence microblog search engines.
随着微博平台上信息量呈指数级的增长,微博搜索引擎已成为一种重要的信息获取平台。在微博信息检索中,查询和文档更加简短,因此数据稀疏性问题将更加严重。另外,不同微博用户的权威性有较大差异。微博信息的这些特点严重制约了微博检索系统的服务质量。本课题组拟提出一套基于语言模型框架的微博信息检索方法,利用大规模主题建模技术和用户行为分析提高微博信息检索的效果。首先,通过大规模主题建模技术挖掘微博文本中丰富的语义信息,并结合主题信息构建文档语言模型;其次,利用微博内容和用户行为信息对用户兴趣偏好建模,并构建个性化查询模型;然后,通过微博用户行为分析生成面向查询的局部用户-微博贴关系图并计算微博贴权威性。最后,整合文档模型、查询模型和微博贴权威性信息构建面向微博的信息检索模型。本课题研究对完善微博信息检索方法的研究体系,对提高微博搜索引擎的智能化水平都将具有重要意义。
随着微博平台上信息量呈指数级的增长,微博搜索引擎已成为一种重要的信息获取平台。在微博信息检索中,查询和文档更加简短,因此数据稀疏性问题将更加严重。另外,不同微博用户的权威性有较大差异。微博信息的这些特点严重制约了微博检索系统的服务质量。本项目组计划构建新的微博信息检索系统,通过文本内容分析和用户行为分析以提高微博信息检索系统的服务质量。在项目执行期间,本项目组顺利完成了项目申请书中的各项研究计划,主要研究内容包括以下几个方面:①由于微博等短文本的数据稀疏性,传统的主题模型无法有效地处理。针对微博等短文本的特点,结合外部的语义网知识,我们构建了多种不同的主题模型,能够更加有效对短文本建模,并将其应用到信息检索等任务中;②从直觉上看,信息检索模型中词语的重要性不仅取决于文档长度、词语在文档和文档集中的词频这三个特征,同时还与这个词语的其它方面的特征有关。我们尝试将词语的语义一致性等特征平滑融入到传统的信息检索框架,构建了更加有效的信息检索模型;③微博平台中用户可以关注其它微博用户,还可以发布和转发微博帖。我们结合微博用户行为分析构建了新的微博信息检索模型,取得了较好效果;④近年来,深度学习已成功应用在各种不同的自然语言处理任务中并且取得了重大进展。我们构建了多种基于深度学习的文本建模方法,能够在一定程度上解决短文本中数据稀疏性的问题,进一步改进自然语言处理任务的性能。在项目全体成员的努力下,本项目组取得了预期的研究成果:发表学术论文13篇,其中7篇发表在SIGIR、WWW、WSDM和JASIS 等信息检索领域的权威会议和期刊上;发布了基于Python的信息检索实验平台,提供给其他研究人员自由使用;申请了专利2项和软件著作权1项;参加了国际信息检索评测(TREC 2019 Deep Learning) ;培养了信息检索领域的硕士研究生9名,协助培养了博士生2名。本课题研究对完善微博信息检索方法的研究体系,对提高微博搜索引擎的智能化水平都具有重要意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
货币政策与汇率制度对国际收支的影响研究
大规模Web共享图像的关联分析和主题检索
面向微博的用户动态兴趣建模和智能推荐方法研究
基于随机博弈网的微博用户行为及信息传播分析
基于用户建模的个性化微博排序研究