Spam campaign activities in online social networks are increasing. Most spam campaigns use complicated template to generate spam content in order to avoid detection, which are absence of invariant substring, prevalence of noise and heterogeneity. Many of them are sent via normal accounts. All these challenges to existing spam detection work. This proposal focuses on the spam generated by template without invariant substrings and online detection approach. By automated multiple spam template reconstruction from online messages flow which contain part of whole spam set, spam can be detected online with efficiency and accuracy. We proposed a template reconstruction algorithm by majority merge and matrix transformation, online incremental clustering based on rare category mining, noise identification by sequence labeling and spam account source analysis based on community detection. Those researches should solve the key problems in online social network spam detection, including non-invariant substrings template reconstruction, online clustering of messages generated by multiple template, noise identification and error toleration, provide an online, accurate and adaptive detection. The research will support building online and effective spam detection and filter system in online social networks, which threat the security of users in them.
社交网络中的垃圾信息问题日益严重,为逃避检测,垃圾信息发送者越来越多地使用复杂多变的模板生成垃圾信息,其无固定公共子串、包含噪音、多源混合以及部分借助正常用户发送的特点,使得现有方法无法有效在线检测。本项目以社交网络中无固定公共子串模板生成的垃圾信息为研究对象,旨在探索针对模板生成的垃圾信息实施在线检测的方法,从仅含部分样本且多源混合的实时信息流中自动区分并提取垃圾信息所用的不同模板进行重构,从而准确反映垃圾信息的本质特征,实现垃圾信息在线检测,包括0-day垃圾信息。拟研究多数融合及矩阵变换的模板重构、基于稀有类挖掘的在线增量聚类、应用序列标注的噪音识别及基于社区挖掘的垃圾信息账号同源分析等启发式算法和方法,解决多源数据在线区分、模板重构及噪音与错误数据消减等关键科学问题,保证方法的实时、准确及自适应。研究成果将直接指导构建社交网络垃圾信息的在线检测系统,保障用户安全和社交网络正常运行。
社交网络中的垃圾信息问题日益严重,为逃避检测,垃圾信息发送者越来越多地使用复杂多变的模板生成垃圾信息,其无固定公共子串、包含噪音、多源混合以及部分借助正常用户发送的特点,使得现有方法无法有效在线检测。项目围绕社交网络中的垃圾信息检测展开研究,针对垃圾信息无公共子串的特点,研究如何利用局部相似性和相似传导性进行启发式模板重构;针对垃圾信息多元混杂的特点,研究在线增量聚类算法实时划分同源模板垃圾信息;针对垃圾账号难以同正常账号区分的问题,利用社交文本信息(例如信息发送时间、数量等)建立社交网络账号的相似度模型,研究基于社区发现的垃圾账号同源性检测方法。 ..项目研究主要成果有:提出了无公共子串的模板启发式重构方法,处理单一模板产生的垃圾信息,重构垃圾信息模板;为了处理多源模板产生的垃圾信息,项目组还设计了RCD-Forest、FREE、RLP等基于稀有类分析技术的多源混合信息流在线增量聚类算法,将多源混合的实时信息流划分成若干个单源模板垃圾信息集合,然后分别用启发式单源模板重构方法重构垃圾模板;为了对垃圾账号进行同源性分析,项目组提出了基于社区挖掘的同源垃圾账号检测方法,根据垃圾信息的发送时间、发送数量、垃圾信息内容相似度等因素,建立垃圾信息账号的相似度模型,在此基础上采用社区检测等方法分析垃圾信息发送账号之间关联性,用以推测多个垃圾账号是否由同一发送者(即同源)发起。最后,基于项目提出模板重构方法、增量聚类方法、垃圾账号同源分析方法等关键基础与方法,构建了一个社交网络(OSN)垃圾信息在线检测原型系统,并对系统的效率和准确性等指标进行测试评估。..项目组目前已发表10篇高水平论文(其中CCF A类论文2篇)和申请2项专利;项目培养博士研究生5名(其中3名已毕业)。项目成果还成功应用于腾讯手机管家的安卓软件恶意信息检测和阿里巴巴电商平台中的电商欺诈检测,实际平台的运行结果也证明了项目提出垃圾检测方案的准确性和高效性。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
城市轨道交通车站火灾情况下客流疏散能力评价
基于FTA-BN模型的页岩气井口装置失效概率分析
基于全模式全聚焦方法的裂纹超声成像定量检测
基于多源异构在线社交网络平台的信息传播模型研究与传播趋势预测
基于机器学习的社交网络垃圾检测技术研究
基于多源信息融合的水质在线异常检测与分类识别方法研究
多源异构在线社交网络中链路预测问题的研究