基于多源模板重构的社交网络垃圾信息在线检测方法研究

基本信息

批准号：61472359

项目类别：面上项目

资助金额：80.00

负责人：何钦铭

学科分类：

依托单位：浙江大学

批准年份：2014

结题年份：2018

起止时间：2015-01-01 - 2018-12-31

项目状态：已结题

项目参与者：陈焰,凃浩,卜凯,陈建海,胡青阳,刘振广,黄步添,翁海琴,吕颖

关键词：

社区检测垃圾信息模板重构在线社交网络增量聚类

结项摘要

Spam campaign activities in online social networks are increasing. Most spam campaigns use complicated template to generate spam content in order to avoid detection, which are absence of invariant substring, prevalence of noise and heterogeneity. Many of them are sent via normal accounts. All these challenges to existing spam detection work. This proposal focuses on the spam generated by template without invariant substrings and online detection approach. By automated multiple spam template reconstruction from online messages flow which contain part of whole spam set, spam can be detected online with efficiency and accuracy. We proposed a template reconstruction algorithm by majority merge and matrix transformation, online incremental clustering based on rare category mining, noise identification by sequence labeling and spam account source analysis based on community detection. Those researches should solve the key problems in online social network spam detection, including non-invariant substrings template reconstruction, online clustering of messages generated by multiple template, noise identification and error toleration, provide an online, accurate and adaptive detection. The research will support building online and effective spam detection and filter system in online social networks, which threat the security of users in them.

社交网络中的垃圾信息问题日益严重，为逃避检测，垃圾信息发送者越来越多地使用复杂多变的模板生成垃圾信息，其无固定公共子串、包含噪音、多源混合以及部分借助正常用户发送的特点，使得现有方法无法有效在线检测。本项目以社交网络中无固定公共子串模板生成的垃圾信息为研究对象，旨在探索针对模板生成的垃圾信息实施在线检测的方法，从仅含部分样本且多源混合的实时信息流中自动区分并提取垃圾信息所用的不同模板进行重构，从而准确反映垃圾信息的本质特征，实现垃圾信息在线检测，包括0-day垃圾信息。拟研究多数融合及矩阵变换的模板重构、基于稀有类挖掘的在线增量聚类、应用序列标注的噪音识别及基于社区挖掘的垃圾信息账号同源分析等启发式算法和方法，解决多源数据在线区分、模板重构及噪音与错误数据消减等关键科学问题，保证方法的实时、准确及自适应。研究成果将直接指导构建社交网络垃圾信息的在线检测系统，保障用户安全和社交网络正常运行。

项目摘要

社交网络中的垃圾信息问题日益严重，为逃避检测，垃圾信息发送者越来越多地使用复杂多变的模板生成垃圾信息，其无固定公共子串、包含噪音、多源混合以及部分借助正常用户发送的特点，使得现有方法无法有效在线检测。项目围绕社交网络中的垃圾信息检测展开研究，针对垃圾信息无公共子串的特点，研究如何利用局部相似性和相似传导性进行启发式模板重构；针对垃圾信息多元混杂的特点，研究在线增量聚类算法实时划分同源模板垃圾信息；针对垃圾账号难以同正常账号区分的问题，利用社交文本信息（例如信息发送时间、数量等）建立社交网络账号的相似度模型，研究基于社区发现的垃圾账号同源性检测方法。 ..项目研究主要成果有：提出了无公共子串的模板启发式重构方法，处理单一模板产生的垃圾信息，重构垃圾信息模板；为了处理多源模板产生的垃圾信息，项目组还设计了RCD-Forest、FREE、RLP等基于稀有类分析技术的多源混合信息流在线增量聚类算法，将多源混合的实时信息流划分成若干个单源模板垃圾信息集合，然后分别用启发式单源模板重构方法重构垃圾模板；为了对垃圾账号进行同源性分析，项目组提出了基于社区挖掘的同源垃圾账号检测方法，根据垃圾信息的发送时间、发送数量、垃圾信息内容相似度等因素，建立垃圾信息账号的相似度模型，在此基础上采用社区检测等方法分析垃圾信息发送账号之间关联性，用以推测多个垃圾账号是否由同一发送者(即同源)发起。最后，基于项目提出模板重构方法、增量聚类方法、垃圾账号同源分析方法等关键基础与方法，构建了一个社交网络（OSN）垃圾信息在线检测原型系统，并对系统的效率和准确性等指标进行测试评估。..项目组目前已发表10篇高水平论文(其中CCF A类论文2篇)和申请2项专利；项目培养博士研究生5名（其中3名已毕业）。项目成果还成功应用于腾讯手机管家的安卓软件恶意信息检测和阿里巴巴电商平台中的电商欺诈检测，实际平台的运行结果也证明了项目提出垃圾检测方案的准确性和高效性。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.16796/j.cnki.1000-3770.2022.03.003

发表时间：2022

DOI：

发表时间：2021

DOI：

发表时间：

DOI：10.11842/wst.20190724002

发表时间：2020

DOI：10.16383/j.aas.c180673

发表时间：2021

何钦铭的其他基金

相似国自然基金

基于多源异构在线社交网络平台的信息传播模型研究与传播趋势预测

批准号：61602237

批准年份：2016

负责人：王森章

学科分类：F0607

资助金额：21.00

项目类别：青年科学基金项目

基于机器学习的社交网络垃圾检测技术研究

批准号：61772099

批准年份：2017

负责人：徐光侠

学科分类：F0205

资助金额：61.00

项目类别：面上项目

基于多源信息融合的水质在线异常检测与分类识别方法研究

批准号：61573313

批准年份：2015

负责人：侯迪波

学科分类：F0303

资助金额：64.00

项目类别：面上项目

多源异构在线社交网络中链路预测问题的研究

批准号：61902152

批准年份：2019

负责人：詹千熠

学科分类：F0211

资助金额：27.00

项目类别：青年科学基金项目

基于多源模板重构的社交网络垃圾信息在线检测方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

EBPR工艺运行效果的主要影响因素及研究现状

基于铁路客流分配的旅客列车开行方案调整方法

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

二维FM系统的同时故障检测与控制

何钦铭的其他基金

相似国自然基金