Data of modern social network services reflects the complex connection between the society and physical world. The scale its users and real-time nature of the data can contribute to the analysis and detection of anomalous events online or offline, which is of great value to both commercial activity and society. However, the social network data stream is highly dynamic and huge in sheer volume. As a result, traditional topic and event detection methods cannot be applied effectively or directly to modern data. Meanwhile, data of the social network services can be naturally modeled as dynamic graphs, which poses new challenge and problems for traditional batch processing techniques. We identify the requirements and challenges posed by the problem of anomalous event detection over modern social network data streams and propose a monitoring framework based on incremental computing algorithms, exploiting the graph nature of the data. In terms of the content of the data, we would research on anomalous event detection models based on bursty features, the application of non-parametric heterogeneous graph scan techniques and evaluation methods of the detected events. In terms of data structure, we would study anomalous hot spot detection in graph steams and identify nodes with anomalous network structure. In terms of data processing, we would build a distributed graph computing system based on in-memory computing and develop optimization and fault tolerance mechanisms. In the end we would integrate the proposed technologies and build a prototype system for research, experiment and real-life applications. Our project is expected to complement the theories of event detection, provide knowledge on balancing detection quality and processing efficiency and contribute to the understanding, exploration and application of the big data computing.
社会网络大数据反映了人类社会和物理世界的复杂联系,其大规模用户和海量实时数据能够有助于异常事件的检测和分析,具有重要的商业和社会价值。然而由于社交网络的流式数据动态性强、数据量庞大,传统基于突发特征以及话题检测方法难以有效适用。同时,社交网络的实时数据结构上具有图特征,且持续更新,传统批处理方式存在局限性。本项目针对社会网络大数据的异常事件检测需求和技术挑战,提出一套以图结构为数据特征、以增量处理为算法模式的协同检测体系。从数据内容层面,研究基于突发特征增量聚类的异常事件检测模型,以及非参数异构图扫描算法和事件评估方法等,从数据结构层面,研究基于图数据流的异常热点和节点识别方法;从数据处理层面,研究基于分布式内存的图计算框架、优化机制和可靠性保障技术等;最终,研发基于微博的原型系统,并进行技术试验和应用。本项目将有效平衡事件检测准确性与处理效率的关系,有助于大数据计算科学问题的探索。
社交网络具有流式数据动态性强、数据量大等特征,如何有效检测异常事件并深度分析面临诸多技术挑战。本项目提出了一套以图结构为数据特征、以增量处理、子模优化等为算法模式的协同检测体系。在数据语义理解方面,提出了基于突发特征增量聚类的异常事件检测模型,多维度增强的事件关联方法,以及误差有界的增量式词向量表征学习方法等;在结构异常分析方面,提出了基于动态图的异常行为检测模型,基于结构投影机理的稀疏子图分解优化,以及特定结构的子图检测方法等;在数据处理方面,设计了面向流式图的负载均衡技术、异步通信的分布式图计算技术,以及基于分布式共享内存的参数服务器等。本项目的研究为行为关联发现面临的异常随机稀疏、群体隐含多变、突发检测信息匮乏等科学难题提供了多种求解理论和算法,并在多项指标取得进展,例如增量式表征方法相比批量式方法计算效率提升30余倍,极不均衡样本表征在多分类任务上F1指标提升5倍等,研究有助于社交媒体大数据计算科学问题的持续探索。基于微博、贴吧等多源社交媒体数据,建立了突发事件检测系统Ring,已汇聚数据100亿条,200万事件,并形成事件知识库。项目在TKDE, WWW, IJCAI等发表论文35篇,获1篇最佳论文和1名最佳论文提名奖,申请专利16项,作为重要成果分别获2018电子学会技术发明一等奖(第1),2017国家技术进步二等奖(第5),培养研究生20名,课题组本硕学生在CCF大数据事件检测,国际Kaggle欺诈检测等竞赛多次获奖。项目技术及系统已在国家安全、社会治理、商业服务等领域应用,在国家互联网应急中心,为31个省级分中心、21个地级市保障中心提供服务,在天津智慧党建平台,建设津眼系统,实现民情民意实时感知和决策支持。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
黄河流域水资源利用时空演变特征及驱动要素
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
城市轨道交通车站火灾情况下客流疏散能力评价
基于FTA-BN模型的页岩气井口装置失效概率分析
面向事件检测的感知数据处理方法研究
网络异常行为检测技术及定位方法
基于多源数据融合的异常社会行为分析及事件预测方法研究
面向拥挤监控场景的异常事件检测技术研究