多模态Web作弊检测的统计机器学习方法研究

基本信息

批准号：61005029

项目类别：青年科学基金项目

资助金额：20.00

负责人：耿光刚

学科分类：

依托单位：中国科学院计算机网络信息中心

批准年份：2010

结题年份：2013

起止时间：2011-01-01 - 2013-12-31

项目状态：已结题

项目参与者：王欣,李洪涛,陈涛,许海涛,沈婷婷

关键词：

统计模式识别作弊检测互联网作弊链接分析

结项摘要

Web作弊呈现出多样性、隐蔽性、融合性和进化性等特点，作弊行为的猖獗导致互联网搜索结果的质量不断下降，严重恶化了用户的搜索体验，成为影响搜索引擎公正性的首要问题。统计学习方法可以同时检测多种作弊形式，通过增加、删除相应特征保持系统对不断进化的作弊行为的有效检测，与链接分析等方法相比，表现出其优越性。本项目将分析Web作弊统计特点，拓展现有的机器学习算法，提取多视角分类特征，设计不同层次的多模态特征融合策略，进行基于统计学习的Web作弊检测。在此基础上开展链接学习，研究小样本集下的半监督Web作弊检测算法。该项目的难点和关键问题是如何从海量Web数据中挖掘不同视角的分类特征，特别是从亿级节点的超链接图中提取有效的链接特征。项目的顺利开展将：(1)遏制日渐猖獗的互联网作弊行为，净化网络环境；(2)为Web搜索提供有效的可参考排序依据；(3)为色情、钓鱼等互联网不良信息的检测提供算法、策略支持。

项目摘要

Web作弊，又称搜索引擎作弊，是指采用迷惑、欺骗搜索引擎的手段，使得Web页面在检索结果中的排名高于其实际应得排名的行为。Web作弊的猖獗严重恶化了用户的搜索体验，成为影响搜索引擎公正性的首要问题。本项目通过分析Web作弊统计特点，拓展现有的机器学习算法，提取多视角分类特征，设计不同层次的多模态特征融合策略,研究半监督Web作弊检测，并拓展了多项计划外的研究。本项目主要内容描述如下：. 本项目在机器学习框架下，提出了两种Web作弊检测的特征使用策略。策略一是提取不同视角的特征，包括：内容特征、域名注册特征和链接相关特征等，进行基于融合特征的单阶段Web作弊检测。策略二是基于两阶段特征提取的Web作弊检测。我们深入分析了两种策略的关系以及它们的优缺点，为Web作弊检测的特征选择工作提供有意义的参考。. 通过分析作弊节点呈现出的拓扑依赖、聚类等特性，本项目提出了基于Web拓扑结构的半监督检测方法--LCo-training和Link-training2。标准数据集上的实验表明：在少量标号训练样本的情况下，可以有效挖掘Web拓扑依赖，提升Web作弊检测性能。. 作弊节点间存在的拓扑依赖和聚类等特性，本课题改进了反映不同聚类中心的学习矢量量化算法，其核心是优化排序学习损失函数。尽管在作弊测试中，该算法并没有表现出比现有算法更优的性能，但在6个多标号分类的公开数据集上的实验表明，该极大地超出了经典的AdaBoost.MH算法和带元标号分类器的AdaBoost.MH算法，对于One-Error和MAC-F1两个评价指标，其优越性具有统计上的显著性(0.03)。. 随着对Web作弊的深入认知，课题组开展了多项计划外的研究内容，包括：基于机器视觉的恶意跳转作弊检测，作弊场景下内容质量评价，以及将作弊检测算法用于网络钓鱼检测等。. 本课题取得成果包括：发表13篇论文（其中4篇SCI，7篇EI），提交申请专利6项，申请著作权2项，参加ECML/PKDD2010作弊检测和网络内容质量评价国际测评获第1名，开放一个隐藏作弊数据集，并开源一个作弊检测系统。项目的顺利开展不仅为Web搜索提供了可参考排序依据，而且为打击钓鱼等网络滥用提供算法和策略支持。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：10.11842/wst.20190724002

发表时间：2020

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：10.7498/aps.68.20181682

发表时间：2019

DOI：10.3969/j.issn.1000-0844.2017.05.0820

发表时间：2017

耿光刚的其他基金

批准号：61375039

批准年份：2013

资助金额：79.00

项目类别：面上项目

相似国自然基金

多模态Web人脸属性学习方法及应用研究

批准号：61373060

批准年份：2013

负责人：谭晓阳

学科分类：F0605

资助金额：77.00

项目类别：面上项目

面向多模态信息有效利用的机器学习方法研究

批准号：61273301

批准年份：2012

负责人：姜远

学科分类：F0603

资助金额：80.00

项目类别：面上项目

复杂环境下Web内容质量评价的统计学习方法研究

批准号：61375039

批准年份：2013

负责人：耿光刚

学科分类：F0603

资助金额：79.00

项目类别：面上项目

面向网络图像检索的弱监督多模态跨域机器学习方法研究

批准号：61671048

批准年份：2016

负责人：邬俊

学科分类：F0116

资助金额：60.00

项目类别：面上项目

多模态Web作弊检测的统计机器学习方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

二维FM系统的同时故障检测与控制

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

铁路大跨度简支钢桁梁桥车-桥耦合振动研究

耿光刚的其他基金

复杂环境下Web内容质量评价的统计学习方法研究

相似国自然基金