Web作弊呈现出多样性、隐蔽性、融合性和进化性等特点,作弊行为的猖獗导致互联网搜索结果的质量不断下降,严重恶化了用户的搜索体验,成为影响搜索引擎公正性的首要问题。统计学习方法可以同时检测多种作弊形式,通过增加、删除相应特征保持系统对不断进化的作弊行为的有效检测,与链接分析等方法相比,表现出其优越性。本项目将分析Web作弊统计特点,拓展现有的机器学习算法,提取多视角分类特征,设计不同层次的多模态特征融合策略,进行基于统计学习的Web作弊检测。在此基础上开展链接学习,研究小样本集下的半监督Web作弊检测算法。该项目的难点和关键问题是如何从海量Web数据中挖掘不同视角的分类特征,特别是从亿级节点的超链接图中提取有效的链接特征。项目的顺利开展将:(1)遏制日渐猖獗的互联网作弊行为,净化网络环境;(2)为Web搜索提供有效的可参考排序依据;(3)为色情、钓鱼等互联网不良信息的检测提供算法、策略支持。
Web作弊,又称搜索引擎作弊,是指采用迷惑、欺骗搜索引擎的手段,使得Web页面在检索结果中的排名高于其实际应得排名的行为。Web作弊的猖獗严重恶化了用户的搜索体验,成为影响搜索引擎公正性的首要问题。本项目通过分析Web作弊统计特点,拓展现有的机器学习算法,提取多视角分类特征,设计不同层次的多模态特征融合策略,研究半监督Web作弊检测,并拓展了多项计划外的研究。本项目主要内容描述如下:. 本项目在机器学习框架下,提出了两种Web作弊检测的特征使用策略。策略一是提取不同视角的特征,包括:内容特征、域名注册特征和链接相关特征等,进行基于融合特征的单阶段Web作弊检测。策略二是基于两阶段特征提取的Web作弊检测。我们深入分析了两种策略的关系以及它们的优缺点,为Web作弊检测的特征选择工作提供有意义的参考。. 通过分析作弊节点呈现出的拓扑依赖、聚类等特性,本项目提出了基于Web拓扑结构的半监督检测方法--LCo-training和Link-training2。标准数据集上的实验表明:在少量标号训练样本的情况下,可以有效挖掘Web拓扑依赖,提升Web作弊检测性能。. 作弊节点间存在的拓扑依赖和聚类等特性,本课题改进了反映不同聚类中心的学习矢量量化算法,其核心是优化排序学习损失函数。尽管在作弊测试中,该算法并没有表现出比现有算法更优的性能,但在6个多标号分类的公开数据集上的实验表明,该极大地超出了经典的AdaBoost.MH算法和带元标号分类器的AdaBoost.MH算法,对于One-Error和MAC-F1两个评价指标,其优越性具有统计上的显著性(0.03)。. 随着对Web作弊的深入认知,课题组开展了多项计划外的研究内容,包括:基于机器视觉的恶意跳转作弊检测,作弊场景下内容质量评价,以及将作弊检测算法用于网络钓鱼检测等。. 本课题取得成果包括:发表13篇论文(其中4篇SCI,7篇EI),提交申请专利6项,申请著作权2项,参加ECML/PKDD2010作弊检测和网络内容质量评价国际测评获第1名,开放一个隐藏作弊数据集,并开源一个作弊检测系统。项目的顺利开展不仅为Web搜索提供了可参考排序依据,而且为打击钓鱼等网络滥用提供算法和策略支持。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
跨社交网络用户对齐技术综述
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
多模态Web人脸属性学习方法及应用研究
面向多模态信息有效利用的机器学习方法研究
复杂环境下Web内容质量评价的统计学习方法研究
面向网络图像检索的弱监督多模态跨域机器学习方法研究