基于多源模板重构的社交网络垃圾信息在线检测方法研究

基本信息
批准号:61472359
项目类别:面上项目
资助金额:80.00
负责人:何钦铭
学科分类:
依托单位:浙江大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:陈焰,凃浩,卜凯,陈建海,胡青阳,刘振广,黄步添,翁海琴,吕颖
关键词:
社区检测垃圾信息模板重构在线社交网络增量聚类
结项摘要

Spam campaign activities in online social networks are increasing. Most spam campaigns use complicated template to generate spam content in order to avoid detection, which are absence of invariant substring, prevalence of noise and heterogeneity. Many of them are sent via normal accounts. All these challenges to existing spam detection work. This proposal focuses on the spam generated by template without invariant substrings and online detection approach. By automated multiple spam template reconstruction from online messages flow which contain part of whole spam set, spam can be detected online with efficiency and accuracy. We proposed a template reconstruction algorithm by majority merge and matrix transformation, online incremental clustering based on rare category mining, noise identification by sequence labeling and spam account source analysis based on community detection. Those researches should solve the key problems in online social network spam detection, including non-invariant substrings template reconstruction, online clustering of messages generated by multiple template, noise identification and error toleration, provide an online, accurate and adaptive detection. The research will support building online and effective spam detection and filter system in online social networks, which threat the security of users in them.

社交网络中的垃圾信息问题日益严重,为逃避检测,垃圾信息发送者越来越多地使用复杂多变的模板生成垃圾信息,其无固定公共子串、包含噪音、多源混合以及部分借助正常用户发送的特点,使得现有方法无法有效在线检测。本项目以社交网络中无固定公共子串模板生成的垃圾信息为研究对象,旨在探索针对模板生成的垃圾信息实施在线检测的方法,从仅含部分样本且多源混合的实时信息流中自动区分并提取垃圾信息所用的不同模板进行重构,从而准确反映垃圾信息的本质特征,实现垃圾信息在线检测,包括0-day垃圾信息。拟研究多数融合及矩阵变换的模板重构、基于稀有类挖掘的在线增量聚类、应用序列标注的噪音识别及基于社区挖掘的垃圾信息账号同源分析等启发式算法和方法,解决多源数据在线区分、模板重构及噪音与错误数据消减等关键科学问题,保证方法的实时、准确及自适应。研究成果将直接指导构建社交网络垃圾信息的在线检测系统,保障用户安全和社交网络正常运行。

项目摘要

社交网络中的垃圾信息问题日益严重,为逃避检测,垃圾信息发送者越来越多地使用复杂多变的模板生成垃圾信息,其无固定公共子串、包含噪音、多源混合以及部分借助正常用户发送的特点,使得现有方法无法有效在线检测。项目围绕社交网络中的垃圾信息检测展开研究,针对垃圾信息无公共子串的特点,研究如何利用局部相似性和相似传导性进行启发式模板重构;针对垃圾信息多元混杂的特点,研究在线增量聚类算法实时划分同源模板垃圾信息;针对垃圾账号难以同正常账号区分的问题,利用社交文本信息(例如信息发送时间、数量等)建立社交网络账号的相似度模型,研究基于社区发现的垃圾账号同源性检测方法。 ..项目研究主要成果有:提出了无公共子串的模板启发式重构方法,处理单一模板产生的垃圾信息,重构垃圾信息模板;为了处理多源模板产生的垃圾信息,项目组还设计了RCD-Forest、FREE、RLP等基于稀有类分析技术的多源混合信息流在线增量聚类算法,将多源混合的实时信息流划分成若干个单源模板垃圾信息集合,然后分别用启发式单源模板重构方法重构垃圾模板;为了对垃圾账号进行同源性分析,项目组提出了基于社区挖掘的同源垃圾账号检测方法,根据垃圾信息的发送时间、发送数量、垃圾信息内容相似度等因素,建立垃圾信息账号的相似度模型,在此基础上采用社区检测等方法分析垃圾信息发送账号之间关联性,用以推测多个垃圾账号是否由同一发送者(即同源)发起。最后,基于项目提出模板重构方法、增量聚类方法、垃圾账号同源分析方法等关键基础与方法,构建了一个社交网络(OSN)垃圾信息在线检测原型系统,并对系统的效率和准确性等指标进行测试评估。..项目组目前已发表10篇高水平论文(其中CCF A类论文2篇)和申请2项专利;项目培养博士研究生5名(其中3名已毕业)。项目成果还成功应用于腾讯手机管家的安卓软件恶意信息检测和阿里巴巴电商平台中的电商欺诈检测,实际平台的运行结果也证明了项目提出垃圾检测方案的准确性和高效性。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
2

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
3

城市轨道交通车站火灾情况下客流疏散能力评价

城市轨道交通车站火灾情况下客流疏散能力评价

DOI:
发表时间:2015
4

基于FTA-BN模型的页岩气井口装置失效概率分析

基于FTA-BN模型的页岩气井口装置失效概率分析

DOI:10.16265/j.cnki.issn1003-3033.2019.04.015
发表时间:2019
5

基于全模式全聚焦方法的裂纹超声成像定量检测

基于全模式全聚焦方法的裂纹超声成像定量检测

DOI:10.19650/j.cnki.cjsi.J2007019
发表时间:2021

何钦铭的其他基金

相似国自然基金

1

基于多源异构在线社交网络平台的信息传播模型研究与传播趋势预测

批准号:61602237
批准年份:2016
负责人:王森章
学科分类:F0607
资助金额:21.00
项目类别:青年科学基金项目
2

基于机器学习的社交网络垃圾检测技术研究

批准号:61772099
批准年份:2017
负责人:徐光侠
学科分类:F0205
资助金额:61.00
项目类别:面上项目
3

基于多源信息融合的水质在线异常检测与分类识别方法研究

批准号:61573313
批准年份:2015
负责人:侯迪波
学科分类:F0303
资助金额:64.00
项目类别:面上项目
4

多源异构在线社交网络中链路预测问题的研究

批准号:61902152
批准年份:2019
负责人:詹千熠
学科分类:F0211
资助金额:27.00
项目类别:青年科学基金项目