基于用户标签软约束话题模型的微博资源建模研究

基本信息
批准号:61402466
项目类别:青年科学基金项目
资助金额:24.00
负责人:李鹏
学科分类:
依托单位:中国科学院信息工程研究所
批准年份:2014
结题年份:2017
起止时间:2015-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:殷荣超,付玺,叶邦宇,胡承成,罗远飞
关键词:
话题模型信息检索微博资源用户标签
结项摘要

An important reason for people to use microblog service is to seek and share information. Information sharing is done by posting tweets which can contain not only text, but also URL. We define the URLs appearing in tweets as tweeted URLs...The importance of tweeted URLs comes from the following fact that they are in large quantity and their content is generally of high quality, recent and influential..Information acquisition from tweeted URLs is a natural need for users and is the basis for many applications. Tweeted URLs have gained a lot of attention from industry, however, there is very limited research reported about them. ..In this project, we will provide a systematic study on tweeted URLs. Specifically, the project includes two subtopics: the first one is to give a statistical characterization on them while the second one is to model their content. Our final aim is to improve the document representation of tweeted URL by using information from its related context. The related context here refers to the tweets in which the URL appears and the users who have published the URL. The tweets can provide a supplementary description of the tweeted URL, so they can help understand the document topic. The tweet publishers or users often describe themselves in a short profile or label themselves with tags such as “machine learning” or “NLP” etc. These user’s tags can also indicate the document topic of tweeted URL to some degree, because the tags often describe user’s interest and user tend to post URLs of his or her interest. But note that the user’s tags here does not equal to the document tags in social bookmarking service, since they are not direct annotations on documents. It is not reasonable to assume that all the user’s tags accurately explain the document topics and all the documents can be described by their related user’s tags. ..Once we have realized the utility of tweeted URL context, we plan to design a topic model to capture the relationship of the tweets, the user’s tags and the document content corresponding to the tweeted URL. To make the learned topic have a better interpretation, we define a one-to-one mapping between the latent topics and user’s tags. Besides, according to our analysis on the usage of user’s tags, we propose a soft constraint to express the effect of user’s tags on topic model estimation. The soft constraint means that the document topic does not have to be completely limited in the topic scope of related user’s tags, but those topics from related user’s tags should be emphasized. ..The proposed model can be applied in recommendation tasks such as tag recommendation, tweet recommendation, tweeted URL recommendation and in document retrieval tasks such as tweeted URL search and tweet search. All of these tasks can improve the breadth and depth of information acquisition from microblog platform. .

用户使用微博的重要原因是信息搜集与分享。分享的消息不仅可以包括文字描述,也可以加入外部引用(URL)。我们将出现在微博消息中的URL称为微博资源。微博资源的重要性体现在:(1) 数据量大;(2) 时效性好;(3) 社会影响力大;(4)内容质量高。从微博资源中进行有效的信息获取是用户的自然需求,也是许多系统应用的基础。虽然微博资源广受工业界关注,但在学术界,相关研究刚刚起步。.本课题拟对微博资源进行系统性研究,通过全面分析微博资源的统计特性,构建微博资源内容模型,利用微博消息文本、用户标签提高对网页内容的理解。课题计划使用话题模型来建模消息、资源、用户标签三者的关系,并建立话题与用户标签的直接联系;针对用户标签特点,提出用户标签对话题模型的软约束假设,即要求文档话题与关联的标签话题有关系,但不完全限定在关联的标签话题内。所提模型可以广泛应用在推荐任务以及检索任务中。..

项目摘要

近年来,微博作为新的社交网络应用得到了长足发展。对微博消息中的URL-即微博资源进行理解并挖掘其价值是研究的关注热点。.本课题对微博资源进行研究,目标是增强对中文微博资源的理解,提高微博平台信息获取的效率。主要研究内容包括中文微博资源分析、高质量微博用户排序、基于用户标签的微博用户检索。此外,为了增强对文本内容的理解,研究了中文词以及情感词的分布式表示学习方法;为提高信息检索效率,对高压缩率的IPC编码的查询处理进行优化。.具体地,1)通过对微博资源进行统计,我们发现微博资源中的“art”、“social”、“news”、“game”内容占比最大,出现频次最多的网站除了传统的新闻门户,也包括大量新兴社交媒体网站(如微信、头条、bilibli等),反映了微博用户关注的内容偏好。2)在高质量微博用户排序方面,我们发现含URL的消息与用户在用户话题上的相关性要显著高于不含URL消息;提出了只利用含URL消息进行用户质量评价的方法,在达到最优排序效果的同时信息输入平均减少了80%。3)在基于用户标签的用户检索方面,探索了使用维基百科知识库的用户匹配方法,有效解决了领域词与用户标签的“词项失配”问题。4)在中文词的分布式表示学习方面,提出了词-字-偏旁的多粒度中文词表示学习方法MGE,有效提高了词相似度计算以及类比推理任务的效果;在情感词的分布式表示学习方面,提出使用外部情感词典SentiWordNet来学习词的情感向量,并提出结合词的情感向量以及普通词向量进行情感分析的方法。5)在基于IPC编码的查询处理方面,研究了基于部分解压的IPC编码线上处理方法PDIPC,有效提高了基于IPC编码的查询处理速度。.本项目共发表论文7篇,提交专利申请3项。本研究可以为后续面向社交网络资源的研究、面向中文词表示研究等提供参考。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

黄河流域水资源利用时空演变特征及驱动要素

黄河流域水资源利用时空演变特征及驱动要素

DOI:10.18402/resci.2020.12.01
发表时间:2020
4

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
5

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019

李鹏的其他基金

批准号:61403407
批准年份:2014
资助金额:27.00
项目类别:青年科学基金项目
批准号:21606210
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:81501158
批准年份:2015
资助金额:19.00
项目类别:青年科学基金项目
批准号:11026130
批准年份:2010
资助金额:3.00
项目类别:数学天元基金项目
批准号:51605075
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:21875189
批准年份:2018
资助金额:68.00
项目类别:面上项目
批准号:41301090
批准年份:2013
资助金额:26.00
项目类别:青年科学基金项目
批准号:30960042
批准年份:2009
资助金额:21.00
项目类别:地区科学基金项目
批准号:81272329
批准年份:2012
资助金额:70.00
项目类别:面上项目
批准号:51203186
批准年份:2012
资助金额:25.00
项目类别:青年科学基金项目
批准号:71401133
批准年份:2014
资助金额:20.00
项目类别:青年科学基金项目
批准号:11774289
批准年份:2017
资助金额:62.00
项目类别:面上项目
批准号:41075115
批准年份:2010
资助金额:34.00
项目类别:面上项目
批准号:41501146
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目
批准号:30900183
批准年份:2009
资助金额:18.00
项目类别:青年科学基金项目
批准号:61364024
批准年份:2013
资助金额:47.00
项目类别:地区科学基金项目
批准号:51309026
批准年份:2013
资助金额:25.00
项目类别:青年科学基金项目
批准号:61403204
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:51875431
批准年份:2018
资助金额:60.00
项目类别:面上项目
批准号:21571001
批准年份:2015
资助金额:60.00
项目类别:面上项目
批准号:61763049
批准年份:2017
资助金额:35.00
项目类别:地区科学基金项目
批准号:61672296
批准年份:2016
资助金额:62.00
项目类别:面上项目
批准号:61602517
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:61601348
批准年份:2016
资助金额:19.00
项目类别:青年科学基金项目
批准号:31000954
批准年份:2010
资助金额:20.00
项目类别:青年科学基金项目
批准号:81472596
批准年份:2014
资助金额:75.00
项目类别:面上项目
批准号:51405257
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:31901846
批准年份:2019
资助金额:25.00
项目类别:青年科学基金项目
批准号:81260517
批准年份:2012
资助金额:45.00
项目类别:地区科学基金项目
批准号:11701059
批准年份:2017
资助金额:25.00
项目类别:青年科学基金项目
批准号:41571472
批准年份:2015
资助金额:65.00
项目类别:面上项目
批准号:11074177
批准年份:2010
资助金额:33.00
项目类别:面上项目
批准号:41471226
批准年份:2014
资助金额:90.00
项目类别:面上项目
批准号:51365012
批准年份:2013
资助金额:52.00
项目类别:地区科学基金项目
批准号:11704105
批准年份:2017
资助金额:24.00
项目类别:青年科学基金项目
批准号:81571842
批准年份:2015
资助金额:56.00
项目类别:面上项目
批准号:51909040
批准年份:2019
资助金额:27.00
项目类别:青年科学基金项目
批准号:39570272
批准年份:1995
资助金额:9.00
项目类别:面上项目
批准号:10947205
批准年份:2009
资助金额:20.00
项目类别:专项基金项目
批准号:21203192
批准年份:2012
资助金额:24.00
项目类别:青年科学基金项目
批准号:38770184
批准年份:1987
资助金额:3.00
项目类别:面上项目
批准号:41761111
批准年份:2017
资助金额:38.00
项目类别:地区科学基金项目
批准号:61204108
批准年份:2012
资助金额:26.00
项目类别:青年科学基金项目
批准号:61501244
批准年份:2015
资助金额:18.00
项目类别:青年科学基金项目
批准号:41806108
批准年份:2018
资助金额:25.00
项目类别:青年科学基金项目
批准号:81071974
批准年份:2010
资助金额:35.00
项目类别:面上项目
批准号:21201001
批准年份:2012
资助金额:25.00
项目类别:青年科学基金项目
批准号:30901458
批准年份:2009
资助金额:20.00
项目类别:青年科学基金项目
批准号:61475143
批准年份:2014
资助金额:80.00
项目类别:面上项目
批准号:41361107
批准年份:2013
资助金额:46.00
项目类别:地区科学基金项目
批准号:51909250
批准年份:2019
资助金额:27.00
项目类别:青年科学基金项目
批准号:51805008
批准年份:2018
资助金额:22.00
项目类别:青年科学基金项目
批准号:31160065
批准年份:2011
资助金额:50.00
项目类别:地区科学基金项目
批准号:51475348
批准年份:2014
资助金额:86.00
项目类别:面上项目
批准号:30960470
批准年份:2009
资助金额:24.00
项目类别:地区科学基金项目
批准号:71703082
批准年份:2017
资助金额:18.00
项目类别:青年科学基金项目
批准号:61601263
批准年份:2016
资助金额:19.00
项目类别:青年科学基金项目
批准号:51207100
批准年份:2012
资助金额:24.00
项目类别:青年科学基金项目
批准号:50977029
批准年份:2009
资助金额:37.00
项目类别:面上项目
批准号:81874312
批准年份:2018
资助金额:57.00
项目类别:面上项目
批准号:31200942
批准年份:2012
资助金额:25.00
项目类别:青年科学基金项目
批准号:61103149
批准年份:2011
资助金额:22.00
项目类别:青年科学基金项目
批准号:71401064
批准年份:2014
资助金额:21.00
项目类别:青年科学基金项目
批准号:81760883
批准年份:2017
资助金额:34.00
项目类别:地区科学基金项目
批准号:11047155
批准年份:2010
资助金额:4.00
项目类别:专项基金项目
批准号:11404285
批准年份:2014
资助金额:30.00
项目类别:青年科学基金项目
批准号:81400315
批准年份:2014
资助金额:23.00
项目类别:青年科学基金项目
批准号:51001104
批准年份:2010
资助金额:20.00
项目类别:青年科学基金项目
批准号:11147606
批准年份:2011
资助金额:20.00
项目类别:专项基金项目
批准号:51577068
批准年份:2015
资助金额:54.00
项目类别:面上项目
批准号:81673098
批准年份:2016
资助金额:55.00
项目类别:面上项目
批准号:51403173
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:81301098
批准年份:2013
资助金额:23.00
项目类别:青年科学基金项目
批准号:11247610
批准年份:2012
资助金额:20.00
项目类别:专项基金项目
批准号:81703945
批准年份:2017
资助金额:20.00
项目类别:青年科学基金项目
批准号:51577127
批准年份:2015
资助金额:54.00
项目类别:面上项目
批准号:51779204
批准年份:2017
资助金额:60.00
项目类别:面上项目
批准号:61604048
批准年份:2016
资助金额:19.00
项目类别:青年科学基金项目
批准号:31500461
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目
批准号:61877037
批准年份:2018
资助金额:45.00
项目类别:面上项目
批准号:51902049
批准年份:2019
资助金额:25.00
项目类别:青年科学基金项目
批准号:51408331
批准年份:2014
资助金额:10.00
项目类别:青年科学基金项目
批准号:61502359
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目
批准号:91850118
批准年份:2018
资助金额:80.00
项目类别:重大研究计划
批准号:30600469
批准年份:2006
资助金额:20.00
项目类别:青年科学基金项目
批准号:61602173
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:81000860
批准年份:2010
资助金额:20.00
项目类别:青年科学基金项目
批准号:81570507
批准年份:2015
资助金额:57.00
项目类别:面上项目
批准号:81700143
批准年份:2017
资助金额:20.00
项目类别:青年科学基金项目
批准号:31872538
批准年份:2018
资助金额:59.00
项目类别:面上项目
批准号:51207007
批准年份:2012
资助金额:24.00
项目类别:青年科学基金项目
批准号:21673237
批准年份:2016
资助金额:65.00
项目类别:面上项目
批准号:81202560
批准年份:2012
资助金额:23.00
项目类别:青年科学基金项目
批准号:11905210
批准年份:2019
资助金额:27.00
项目类别:青年科学基金项目
批准号:11302183
批准年份:2013
资助金额:26.00
项目类别:青年科学基金项目
批准号:41901117
批准年份:2019
资助金额:26.00
项目类别:青年科学基金项目
批准号:31671158
批准年份:2016
资助金额:63.00
项目类别:面上项目
批准号:11801383
批准年份:2018
资助金额:19.00
项目类别:青年科学基金项目
批准号:31900061
批准年份:2019
资助金额:23.00
项目类别:青年科学基金项目
批准号:11604187
批准年份:2016
资助金额:21.00
项目类别:青年科学基金项目
批准号:51704202
批准年份:2017
资助金额:23.00
项目类别:青年科学基金项目
批准号:81172589
批准年份:2011
资助金额:60.00
项目类别:面上项目
批准号:81700975
批准年份:2017
资助金额:20.00
项目类别:青年科学基金项目
批准号:39070365
批准年份:1990
资助金额:4.00
项目类别:面上项目
批准号:51505055
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目
批准号:51804356
批准年份:2018
资助金额:27.00
项目类别:青年科学基金项目
批准号:41071182
批准年份:2010
资助金额:39.00
项目类别:面上项目
批准号:11404262
批准年份:2014
资助金额:30.00
项目类别:青年科学基金项目
批准号:11402187
批准年份:2014
资助金额:28.00
项目类别:青年科学基金项目
批准号:31300872
批准年份:2013
资助金额:22.00
项目类别:青年科学基金项目
批准号:51775306
批准年份:2017
资助金额:60.00
项目类别:面上项目

相似国自然基金

1

基于用户建模的个性化微博排序研究

批准号:61402242
批准年份:2014
负责人:陈晨
学科分类:F0211
资助金额:26.00
项目类别:青年科学基金项目
2

基于主题建模的微博语义理解与热点话题识别研究

批准号:61363058
批准年份:2013
负责人:马慧芳
学科分类:F0607
资助金额:45.00
项目类别:地区科学基金项目
3

微博热点话题传播模型与可视化研究

批准号:61272367
批准年份:2012
负责人:叶施仁
学科分类:F0211
资助金额:80.00
项目类别:面上项目
4

微博中定向话题发现与追踪

批准号:61502447
批准年份:2015
负责人:晏小辉
学科分类:F06
资助金额:21.00
项目类别:青年科学基金项目