Recently, social media sites have achieved an impressive growth rate, and become important tools for people to leverage the wisdom of the crowds. However, since anyone can be the information source, the rapid growth also makes misinformation more indiscriminate and spread among a larger amount of people more quickly. Therefore, it is crucial to design algorithms that detect misinformation automatically and efficiently. .The project aims at analyzing and detecting misinformation from large scale data in social media. First, we construct a large-scale misinformation dataset from cross-media data with the following steps: reasonable sampling strategies, temporal event clustering and semi-supervised annotation. Secondly, we conduct a symmetrical analysis towards misinformation from the perspective of content, user and diffusion, with methods such as topic model, machine learning, regression, hypothesis tests and diffusion theory. Finally, we propose two models to detect misinformation automatically: one SVR (Support Vector Regression) model based on the analyzed "content - user - diffusion" features; and one graphical model incorporating the user-information network with the above features. Further, to demonstrate the practicality and feasibility of our study, we design an alert and retrieval system to benefit long-term development of social media.
微博等社会媒体的蓬勃发展,帮助人们更快捷地获取信息。但是,由于任何人都可能成为信息发布者,使得许多不实信息混杂其中,而且传播更加迅速、蛊惑性强且不易甄别。因此,迫切需要一套自动、高效、准确地衡量信息真实度的模型与算法,以检测不实信息。. 本课题拟采用基于多元采样、事件聚类和半监督标注的分层提炼方法构建面向海量社会媒体的大规模、高质量不实信息数据集;基于上述数据集,从内容、用户和传播等三个方面,以主题模型、机器学习技术、回归分析方法和社会学传播理论为工具全面理解不实信息,获取分析不实信息的基本特征。基于上述特征分析,建立综合"内容-用户-传播"特征的支持向量机回归SVR模型以判断博文信息真实度,建立图模型来共同检测用户和信息真实度度量,最终形成科学的不实信息自动检测方法。在上述理论方法和技术的研究基础之上,本课题还将开发不实信息的在线预警与检测系统,服务于社会媒体的和谐稳定与健康发展
微博中的不实信息传播迅速、蛊惑性强且不易甄别。本项目的目的是研究一套自动、高效、准确地衡量信息真实度的模型与算法,以检测不实信息。本项目从媒体数据内容、用户、传播三个角度入手,进行了社会媒体文本的主题建模、用户身份识别、用户影响力分析及社交网络分析,实现对社会媒体中不实信息特点的深入、全面、系统的理解。此外,本课题以主题模型、机器学习、情感分析技术和回归分析方法为工具,深入理论研究。项目组系统地研究分析影响主题模型建模效果的因素,如文档的数目、文档的长度、主题的数目以及模型的超参数等。提出了关于当数据不断增长时主题的后验分布的收缩变化速率的定理, 并且通过在合成和真实数据集上的大量实验验证了这个定理。..项目组开发了谣言监测的原型系统。1)从所发出微博的争议性角度:微博信息的获取者基于自身的先验知识对微博的真实性做出判断,一些活跃用户会在不实微博下发表质疑的观点。本系统利用质疑性质的评论所特有的语言特征来衡量微博的争议性。本质上是利用群体智慧来尽早地发现可能成为谣言的微博。 2)从所发布的微博对大众情绪的影响角度:利用谣言容易引发群体性的非理性情绪的特点,分析微博评论中情绪分布,发现引起负面情绪较多的微博。3)利用新浪微博上用户之间的社交关系和微博内容的话题两个维度的信息将用户划分为不同的领域;进而提出了基于领域的影响力最大化算法,帮助识别谣言和抑制谣言的传播。..项目组发表了高水平论文25篇,其中 CCF A类论文 11篇,SCI 检索 1 篇,EI 检索 14 篇,他引共 200 多篇次。获得机器学习领域顶会 ICML 2014 最佳论文奖,获得网络信息处理领域一流会议 WWW 2016 最佳论文提名,论文被"每日邮报"和"北大新闻"等媒体争相报道,在国内外产生了一定影响力。本项目组培养了 9 名博士、8名硕士,4 名博士毕业生进入 MSRA 和 IBM Almaden 等国际顶尖的科研单位继续科研工作。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
跨社交网络用户对齐技术综述
粗颗粒土的静止土压力系数非线性分析与计算方法
黄河流域水资源利用时空演变特征及驱动要素
拥堵路网交通流均衡分配模型
基于SIRT3/HIF-1α/PFKFB3糖代谢相关通路探讨益气养精方调节肺癌生长及血管形成的研究
基于跨媒体数据挖掘的社会图像事件分析与标注
社会化媒体中实时信息分享行为的影响因素分析
社会化媒体上信息时空传播的可视分析
跨媒体海量信息的综合检索与智能技术的研究