海量社会媒体数据中不实信息的分析与检测

基本信息

批准号：61272343

项目类别：面上项目

资助金额：84.00

负责人：张铭

学科分类：

依托单位：北京大学

批准年份：2012

结题年份：2016

起止时间：2013-01-01 - 2016-12-31

项目状态：已结题

项目参与者：邓志鸿,邱泽奇,孙韬,唐建,王子琪,王晨光,刘国俊,刘金宝,祈颖

关键词：

社会媒体用户分类传播模型不实信息检测大规模数据提炼

结项摘要

Recently, social media sites have achieved an impressive growth rate, and become important tools for people to leverage the wisdom of the crowds. However, since anyone can be the information source, the rapid growth also makes misinformation more indiscriminate and spread among a larger amount of people more quickly. Therefore, it is crucial to design algorithms that detect misinformation automatically and efficiently. .The project aims at analyzing and detecting misinformation from large scale data in social media. First, we construct a large-scale misinformation dataset from cross-media data with the following steps: reasonable sampling strategies, temporal event clustering and semi-supervised annotation. Secondly, we conduct a symmetrical analysis towards misinformation from the perspective of content, user and diffusion, with methods such as topic model, machine learning, regression, hypothesis tests and diffusion theory. Finally, we propose two models to detect misinformation automatically: one SVR (Support Vector Regression) model based on the analyzed "content - user - diffusion" features; and one graphical model incorporating the user-information network with the above features. Further, to demonstrate the practicality and feasibility of our study, we design an alert and retrieval system to benefit long-term development of social media.

微博等社会媒体的蓬勃发展，帮助人们更快捷地获取信息。但是，由于任何人都可能成为信息发布者，使得许多不实信息混杂其中，而且传播更加迅速、蛊惑性强且不易甄别。因此，迫切需要一套自动、高效、准确地衡量信息真实度的模型与算法，以检测不实信息。. 本课题拟采用基于多元采样、事件聚类和半监督标注的分层提炼方法构建面向海量社会媒体的大规模、高质量不实信息数据集；基于上述数据集，从内容、用户和传播等三个方面，以主题模型、机器学习技术、回归分析方法和社会学传播理论为工具全面理解不实信息，获取分析不实信息的基本特征。基于上述特征分析，建立综合"内容－用户－传播"特征的支持向量机回归SVR模型以判断博文信息真实度，建立图模型来共同检测用户和信息真实度度量，最终形成科学的不实信息自动检测方法。在上述理论方法和技术的研究基础之上，本课题还将开发不实信息的在线预警与检测系统，服务于社会媒体的和谐稳定与健康发展

项目摘要

微博中的不实信息传播迅速、蛊惑性强且不易甄别。本项目的目的是研究一套自动、高效、准确地衡量信息真实度的模型与算法，以检测不实信息。本项目从媒体数据内容、用户、传播三个角度入手，进行了社会媒体文本的主题建模、用户身份识别、用户影响力分析及社交网络分析，实现对社会媒体中不实信息特点的深入、全面、系统的理解。此外，本课题以主题模型、机器学习、情感分析技术和回归分析方法为工具，深入理论研究。项目组系统地研究分析影响主题模型建模效果的因素，如文档的数目、文档的长度、主题的数目以及模型的超参数等。提出了关于当数据不断增长时主题的后验分布的收缩变化速率的定理, 并且通过在合成和真实数据集上的大量实验验证了这个定理。..项目组开发了谣言监测的原型系统。1）从所发出微博的争议性角度：微博信息的获取者基于自身的先验知识对微博的真实性做出判断，一些活跃用户会在不实微博下发表质疑的观点。本系统利用质疑性质的评论所特有的语言特征来衡量微博的争议性。本质上是利用群体智慧来尽早地发现可能成为谣言的微博。 2）从所发布的微博对大众情绪的影响角度：利用谣言容易引发群体性的非理性情绪的特点，分析微博评论中情绪分布，发现引起负面情绪较多的微博。3）利用新浪微博上用户之间的社交关系和微博内容的话题两个维度的信息将用户划分为不同的领域；进而提出了基于领域的影响力最大化算法，帮助识别谣言和抑制谣言的传播。..项目组发表了高水平论文25篇，其中 CCF A类论文 11篇，SCI 检索 1 篇，EI 检索 14 篇，他引共 200 多篇次。获得机器学习领域顶会 ICML 2014 最佳论文奖，获得网络信息处理领域一流会议 WWW 2016 最佳论文提名，论文被"每日邮报"和"北大新闻"等媒体争相报道，在国内外产生了一定影响力。本项目组培养了 9 名博士、8名硕士，4 名博士毕业生进入 MSRA 和 IBM Almaden 等国际顶尖的科研单位继续科研工作。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2017

DOI：10.12198/j.issn.1673 − 159X.3895

发表时间：2021

DOI：10.16285/j.rsm.2019.1280

发表时间：2019

DOI：10.18402/resci.2020.12.01

发表时间：2020

DOI：10.11918/j.issn.0367-6234.201804030

发表时间：2019

张铭的其他基金

批准号：31071051

批准年份：2010

资助金额：35.00

项目类别：面上项目

批准号：40575023

批准年份：2005

资助金额：25.00

项目类别：面上项目

批准号：31071201

批准年份：2010

资助金额：31.00

项目类别：面上项目

批准号：81670322

批准年份：2016

资助金额：62.00

项目类别：面上项目

批准号：30070583

批准年份：2000

资助金额：14.00

项目类别：面上项目

批准号：41372055

批准年份：2013

资助金额：73.00

项目类别：面上项目

批准号：21776116

批准年份：2017

资助金额：64.00

项目类别：面上项目

批准号：11174021

批准年份：2011

资助金额：60.00

项目类别：面上项目

批准号：81671368

批准年份：2016

资助金额：57.00

项目类别：面上项目

批准号：61772039

批准年份：2017

资助金额：67.00

项目类别：面上项目

批准号：49875008

批准年份：1998

资助金额：11.00

项目类别：面上项目

批准号：81573893

批准年份：2015

资助金额：59.00

项目类别：面上项目

批准号：69202003

批准年份：1992

资助金额：4.00

项目类别：青年科学基金项目

批准号：21406092

批准年份：2014

资助金额：25.00

项目类别：青年科学基金项目

批准号：81873275

批准年份：2018

资助金额：52.00

项目类别：面上项目

批准号：51209138

批准年份：2012

资助金额：25.00

项目类别：青年科学基金项目

批准号：50201020

批准年份：2002

资助金额：22.00

项目类别：青年科学基金项目

批准号：81100411

批准年份：2011

资助金额：22.00

项目类别：青年科学基金项目

批准号：21206021

批准年份：2012

资助金额：25.00

项目类别：青年科学基金项目

相似国自然基金

基于跨媒体数据挖掘的社会图像事件分析与标注

批准号：61202239

批准年份：2012

负责人：张小明

学科分类：F0607

资助金额：25.00

项目类别：青年科学基金项目

社会化媒体中实时信息分享行为的影响因素分析

批准号：71201096

批准年份：2012

负责人：金晓玲

学科分类：G0112

资助金额：22.00

项目类别：青年科学基金项目

社会化媒体上信息时空传播的可视分析

批准号：61502416

批准年份：2015

负责人：巫英才

学科分类：F0214

资助金额：22.00

项目类别：青年科学基金项目

跨媒体海量信息的综合检索与智能技术的研究

批准号：60533090

批准年份：2005

负责人：潘云鹤

学科分类：F0211

资助金额：180.00

项目类别：重点项目

海量社会媒体数据中不实信息的分析与检测

{{i.achievement_title}}

暂无此项成果

其他相关文献

论大数据环境对情报学发展的影响

跨社交网络用户对齐技术综述

粗颗粒土的静止土压力系数非线性分析与计算方法

黄河流域水资源利用时空演变特征及驱动要素

拥堵路网交通流均衡分配模型

张铭的其他基金

颈部结缔组织构筑对局麻药物屏障作用的应用解剖学研究

中β系统的波谱研究及其在灾害性天气预报中的应用

胚胎干细胞分化为平滑肌细胞的分子机制研究

骨形态发生蛋白2（BMP2）调控细胞外基质重构对斑块进展和稳定性的影响及机制研究

淡水白鲳细胞寒害机理

斜硅石(moganite)高温晶体结构和相变的固体光谱学研究

多酸型多孔聚离子液体用于活化空气氧化燃油超深度脱硫的研究

钙钛矿型多铁性异质结的界面调控磁电耦合效应研究

利用超薄层塑化与高分辨率MRI相结合新技术研究颅底硬膜外神经轴室（EDNAC）精细三维构筑

知识图谱辅助的垂直领域自动人机对话系统框架研究

大气运动方程组谱点及谱函数的研究

从apelin/APJ系统探讨益气养精方抑制肺癌血管生成及侵袭转移的机制

存在通道失配与互耦时的高分辨测向方法研究

金属基三维多级孔硅材料的可控合成及其在燃油吸附催化氧化脱硫中的研究

基于SIRT3/HIF-1α/PFKFB3糖代谢相关通路探讨益气养精方调节肺癌生长及血管形成的研究

基于时变因子动态耦合的水库调度收益-风险均衡策略研究

新型Heusler铁磁形状记忆合金研究

靶向介导色素上皮源性因子治疗子宫内膜异位症

针对反渗透海水淡化系统钙垢的绿色高效阻垢剂分子设计

相似国自然基金