多模态Web作弊检测的统计机器学习方法研究

基本信息
批准号:61005029
项目类别:青年科学基金项目
资助金额:20.00
负责人:耿光刚
学科分类:
依托单位:中国科学院计算机网络信息中心
批准年份:2010
结题年份:2013
起止时间:2011-01-01 - 2013-12-31
项目状态: 已结题
项目参与者:王欣,李洪涛,陈涛,许海涛,沈婷婷
关键词:
统计模式识别作弊检测互联网作弊链接分析
结项摘要

Web作弊呈现出多样性、隐蔽性、融合性和进化性等特点,作弊行为的猖獗导致互联网搜索结果的质量不断下降,严重恶化了用户的搜索体验,成为影响搜索引擎公正性的首要问题。统计学习方法可以同时检测多种作弊形式,通过增加、删除相应特征保持系统对不断进化的作弊行为的有效检测,与链接分析等方法相比,表现出其优越性。本项目将分析Web作弊统计特点,拓展现有的机器学习算法,提取多视角分类特征,设计不同层次的多模态特征融合策略,进行基于统计学习的Web作弊检测。在此基础上开展链接学习,研究小样本集下的半监督Web作弊检测算法。该项目的难点和关键问题是如何从海量Web数据中挖掘不同视角的分类特征,特别是从亿级节点的超链接图中提取有效的链接特征。项目的顺利开展将:(1)遏制日渐猖獗的互联网作弊行为,净化网络环境;(2)为Web搜索提供有效的可参考排序依据;(3)为色情、钓鱼等互联网不良信息的检测提供算法、策略支持。

项目摘要

Web作弊,又称搜索引擎作弊,是指采用迷惑、欺骗搜索引擎的手段,使得Web页面在检索结果中的排名高于其实际应得排名的行为。Web作弊的猖獗严重恶化了用户的搜索体验,成为影响搜索引擎公正性的首要问题。本项目通过分析Web作弊统计特点,拓展现有的机器学习算法,提取多视角分类特征,设计不同层次的多模态特征融合策略,研究半监督Web作弊检测,并拓展了多项计划外的研究。本项目主要内容描述如下:. 本项目在机器学习框架下,提出了两种Web作弊检测的特征使用策略。策略一是提取不同视角的特征,包括:内容特征、域名注册特征和链接相关特征等,进行基于融合特征的单阶段Web作弊检测。策略二是基于两阶段特征提取的Web作弊检测。我们深入分析了两种策略的关系以及它们的优缺点,为Web作弊检测的特征选择工作提供有意义的参考。. 通过分析作弊节点呈现出的拓扑依赖、聚类等特性,本项目提出了基于Web拓扑结构的半监督检测方法--LCo-training和Link-training2。标准数据集上的实验表明:在少量标号训练样本的情况下,可以有效挖掘Web拓扑依赖,提升Web作弊检测性能。. 作弊节点间存在的拓扑依赖和聚类等特性,本课题改进了反映不同聚类中心的学习矢量量化算法,其核心是优化排序学习损失函数。尽管在作弊测试中,该算法并没有表现出比现有算法更优的性能,但在6个多标号分类的公开数据集上的实验表明,该极大地超出了经典的AdaBoost.MH算法和带元标号分类器的AdaBoost.MH算法,对于One-Error和MAC-F1两个评价指标,其优越性具有统计上的显著性(0.03)。. 随着对Web作弊的深入认知,课题组开展了多项计划外的研究内容,包括:基于机器视觉的恶意跳转作弊检测,作弊场景下内容质量评价,以及将作弊检测算法用于网络钓鱼检测等。. 本课题取得成果包括:发表13篇论文(其中4篇SCI,7篇EI),提交申请专利6项,申请著作权2项,参加ECML/PKDD2010作弊检测和网络内容质量评价国际测评获第1名,开放一个隐藏作弊数据集,并开源一个作弊检测系统。项目的顺利开展不仅为Web搜索提供了可参考排序依据,而且为打击钓鱼等网络滥用提供算法和策略支持。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
3

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
4

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
5

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016

耿光刚的其他基金

批准号:61375039
批准年份:2013
资助金额:79.00
项目类别:面上项目

相似国自然基金

1

多模态Web人脸属性学习方法及应用研究

批准号:61373060
批准年份:2013
负责人:谭晓阳
学科分类:F0605
资助金额:77.00
项目类别:面上项目
2

面向多模态信息有效利用的机器学习方法研究

批准号:61273301
批准年份:2012
负责人:姜远
学科分类:F0603
资助金额:80.00
项目类别:面上项目
3

复杂环境下Web内容质量评价的统计学习方法研究

批准号:61375039
批准年份:2013
负责人:耿光刚
学科分类:F0603
资助金额:79.00
项目类别:面上项目
4

面向网络图像检索的弱监督多模态跨域机器学习方法研究

批准号:61671048
批准年份:2016
负责人:邬俊
学科分类:F0116
资助金额:60.00
项目类别:面上项目