搜索引擎作弊行为的猖獗严重地影响了用户的搜索体验和互联网秩序,对互联网搜索构成重大挑战。传统的基于链接分析的排序算法如PageRank算法并不能有效地解决这个问题。搜索引擎作弊检测简单地将网页区分为作弊和非作弊,而一般的排序算法研究的特征没有考虑到网页的作弊特性,使得算法对于作弊网页不能给出一个正确的排序。我们由此针对作弊网页的排序问题进行研究,希望能够针对网页的质量给出公正的排序,作为搜索引擎的一个重要参考和补充。本课题引申的4个子课题均是由此为目标展开:(1)提取能反映网页作弊特性的特征;(2)发展新的可扩展的排序学习算法;(3)研究半监督的排序学习问题;(4)利用在线算法和用户反馈构建动态的排序模型。本课题的顺利开展将会改善搜索质量、节省搜索引擎能耗以及规范互联网秩序。
搜索引擎作弊行为的猖獗严重地影响了用户的搜索体验和互联网秩序,对互联网搜索构成重大挑战。搜索引擎作弊检测简单地将网页区分为作弊和非作弊,而一般的排序算法研究的特征没有考虑到网页的作弊特性,使得算法对于作弊网页不能给出一个正确的排序。我们由此针对作弊网页的排序问题进行研究,希望能够针对网页的质量给出公正的排序,作为搜索引擎的一个重要参考和补充。本项目通过分析Web作弊统计的特点,拓展现有的排序学习算法,并将它应用到多标号学习算法上,另外,本项目在实施的过程中还注重机器学习理论的研究,开展了一些计划外的研究。本项目的主要研究内容简述如下:. 本项目以公开的UK2006/2007数据集为基础,研究了多种特征与网页(网站)作弊之间的关系,提取多个不同视角的特征:内容特征、链接特征、主站特征和TFIDF特征等,便于排序算法进行作弊检测。. 通过分析不同的排序学习算法的优劣,从三方面对排序算法进行研究:(i) 基于多类分类算法AdaBoost算法提出两个新的基于point-wise的排序算法;(ii) 通过优化pair-wise损失函数来近似地优化NDCG度量准则,从而设计出基于pair-wise损失的排序算法;(iii)在编码和解码(encoding and decoding)的框架下,通过融合多个二值pair-wise排序模型得到一个新的排序算法(MultiRank.ED)。. 基于排序的思想,本项目提出一个基于排序的多标号学习算法,该算法旨在通过扩展现有的LVQ算法来处理多标号分类问题(ML-LVQ)。它通过最小化标号集上的误分损失以近似的最小化排序度量值。进一步,算法通过元标号分类器来预测测试样本的标号,改进了算法 bipartition度量,这样避免了昂贵的交叉验证阈值策略。.随着研究的进一步深入展开,项目组还在以下方面开展研究:多标号学习的应用、分布式机器学习平台、最优化理论在机器学习中的应用以及各种形式的作弊检测等。. 本课题取得的成果包括:发表12篇论文(其中3篇SCI,9篇EI),出版译著1本,申请专利1项,参加ECML/PKDD2010作弊检测和网络内容质量评价国际测评获第1名构建一个网页排序数据集并开源一个Java机器学习应用平台。本项目的顺利开展将会有效地改善搜索质量、节省搜索引擎能耗以及规范互联网秩序。
{{i.achievement_title}}
数据更新时间:2023-05-31
主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
三级硅基填料的构筑及其对牙科复合树脂性能的影响
基于集成学习的网页链接作弊检测
新型计算环境下的排序问题
非线性环境下的排序问题研究
复杂生产制造环境下的排序问题研究