海量社会媒体数据中不实信息的分析与检测

基本信息
批准号:61272343
项目类别:面上项目
资助金额:84.00
负责人:张铭
学科分类:
依托单位:北京大学
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:邓志鸿,邱泽奇,孙韬,唐建,王子琪,王晨光,刘国俊,刘金宝,祈颖
关键词:
社会媒体用户分类传播模型不实信息检测大规模数据提炼
结项摘要

Recently, social media sites have achieved an impressive growth rate, and become important tools for people to leverage the wisdom of the crowds. However, since anyone can be the information source, the rapid growth also makes misinformation more indiscriminate and spread among a larger amount of people more quickly. Therefore, it is crucial to design algorithms that detect misinformation automatically and efficiently. .The project aims at analyzing and detecting misinformation from large scale data in social media. First, we construct a large-scale misinformation dataset from cross-media data with the following steps: reasonable sampling strategies, temporal event clustering and semi-supervised annotation. Secondly, we conduct a symmetrical analysis towards misinformation from the perspective of content, user and diffusion, with methods such as topic model, machine learning, regression, hypothesis tests and diffusion theory. Finally, we propose two models to detect misinformation automatically: one SVR (Support Vector Regression) model based on the analyzed "content - user - diffusion" features; and one graphical model incorporating the user-information network with the above features. Further, to demonstrate the practicality and feasibility of our study, we design an alert and retrieval system to benefit long-term development of social media.

微博等社会媒体的蓬勃发展,帮助人们更快捷地获取信息。但是,由于任何人都可能成为信息发布者,使得许多不实信息混杂其中,而且传播更加迅速、蛊惑性强且不易甄别。因此,迫切需要一套自动、高效、准确地衡量信息真实度的模型与算法,以检测不实信息。. 本课题拟采用基于多元采样、事件聚类和半监督标注的分层提炼方法构建面向海量社会媒体的大规模、高质量不实信息数据集;基于上述数据集,从内容、用户和传播等三个方面,以主题模型、机器学习技术、回归分析方法和社会学传播理论为工具全面理解不实信息,获取分析不实信息的基本特征。基于上述特征分析,建立综合"内容-用户-传播"特征的支持向量机回归SVR模型以判断博文信息真实度,建立图模型来共同检测用户和信息真实度度量,最终形成科学的不实信息自动检测方法。在上述理论方法和技术的研究基础之上,本课题还将开发不实信息的在线预警与检测系统,服务于社会媒体的和谐稳定与健康发展

项目摘要

微博中的不实信息传播迅速、蛊惑性强且不易甄别。本项目的目的是研究一套自动、高效、准确地衡量信息真实度的模型与算法,以检测不实信息。本项目从媒体数据内容、用户、传播三个角度入手,进行了社会媒体文本的主题建模、用户身份识别、用户影响力分析及社交网络分析,实现对社会媒体中不实信息特点的深入、全面、系统的理解。此外,本课题以主题模型、机器学习、情感分析技术和回归分析方法为工具,深入理论研究。项目组系统地研究分析影响主题模型建模效果的因素,如文档的数目、文档的长度、主题的数目以及模型的超参数等。提出了关于当数据不断增长时主题的后验分布的收缩变化速率的定理, 并且通过在合成和真实数据集上的大量实验验证了这个定理。..项目组开发了谣言监测的原型系统。1)从所发出微博的争议性角度:微博信息的获取者基于自身的先验知识对微博的真实性做出判断,一些活跃用户会在不实微博下发表质疑的观点。本系统利用质疑性质的评论所特有的语言特征来衡量微博的争议性。本质上是利用群体智慧来尽早地发现可能成为谣言的微博。 2)从所发布的微博对大众情绪的影响角度:利用谣言容易引发群体性的非理性情绪的特点,分析微博评论中情绪分布,发现引起负面情绪较多的微博。3)利用新浪微博上用户之间的社交关系和微博内容的话题两个维度的信息将用户划分为不同的领域;进而提出了基于领域的影响力最大化算法,帮助识别谣言和抑制谣言的传播。..项目组发表了高水平论文25篇,其中 CCF A类论文 11篇,SCI 检索 1 篇,EI 检索 14 篇,他引共 200 多篇次。获得机器学习领域顶会 ICML 2014 最佳论文奖,获得网络信息处理领域一流会议 WWW 2016 最佳论文提名,论文被"每日邮报"和"北大新闻"等媒体争相报道,在国内外产生了一定影响力。本项目组培养了 9 名博士、8名硕士,4 名博士毕业生进入 MSRA 和 IBM Almaden 等国际顶尖的科研单位继续科研工作。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
3

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
4

黄河流域水资源利用时空演变特征及驱动要素

黄河流域水资源利用时空演变特征及驱动要素

DOI:10.18402/resci.2020.12.01
发表时间:2020
5

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019

张铭的其他基金

批准号:31071051
批准年份:2010
资助金额:35.00
项目类别:面上项目
批准号:40575023
批准年份:2005
资助金额:25.00
项目类别:面上项目
批准号:31071201
批准年份:2010
资助金额:31.00
项目类别:面上项目
批准号:81670322
批准年份:2016
资助金额:62.00
项目类别:面上项目
批准号:30070583
批准年份:2000
资助金额:14.00
项目类别:面上项目
批准号:41372055
批准年份:2013
资助金额:73.00
项目类别:面上项目
批准号:21776116
批准年份:2017
资助金额:64.00
项目类别:面上项目
批准号:11174021
批准年份:2011
资助金额:60.00
项目类别:面上项目
批准号:81671368
批准年份:2016
资助金额:57.00
项目类别:面上项目
批准号:61772039
批准年份:2017
资助金额:67.00
项目类别:面上项目
批准号:49875008
批准年份:1998
资助金额:11.00
项目类别:面上项目
批准号:81573893
批准年份:2015
资助金额:59.00
项目类别:面上项目
批准号:69202003
批准年份:1992
资助金额:4.00
项目类别:青年科学基金项目
批准号:21406092
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:81873275
批准年份:2018
资助金额:52.00
项目类别:面上项目
批准号:51209138
批准年份:2012
资助金额:25.00
项目类别:青年科学基金项目
批准号:50201020
批准年份:2002
资助金额:22.00
项目类别:青年科学基金项目
批准号:81100411
批准年份:2011
资助金额:22.00
项目类别:青年科学基金项目
批准号:21206021
批准年份:2012
资助金额:25.00
项目类别:青年科学基金项目

相似国自然基金

1

基于跨媒体数据挖掘的社会图像事件分析与标注

批准号:61202239
批准年份:2012
负责人:张小明
学科分类:F0607
资助金额:25.00
项目类别:青年科学基金项目
2

社会化媒体中实时信息分享行为的影响因素分析

批准号:71201096
批准年份:2012
负责人:金晓玲
学科分类:G0112
资助金额:22.00
项目类别:青年科学基金项目
3

社会化媒体上信息时空传播的可视分析

批准号:61502416
批准年份:2015
负责人:巫英才
学科分类:F0214
资助金额:22.00
项目类别:青年科学基金项目
4

跨媒体海量信息的综合检索与智能技术的研究

批准号:60533090
批准年份:2005
负责人:潘云鹤
学科分类:F0211
资助金额:180.00
项目类别:重点项目