作弊环境下的网页排序问题研究

基本信息

批准号：61103138

项目类别：青年科学基金项目

资助金额：21.00

负责人：靳小波

学科分类：

依托单位：河南工业大学

批准年份：2011

结题年份：2014

起止时间：2012-01-01 - 2014-12-31

项目状态：已结题

项目参与者：王峰,阎娟,孙孟柯,徐柏森

关键词：

半监督学习排序学习在线学习搜索引擎作弊

结项摘要

搜索引擎作弊行为的猖獗严重地影响了用户的搜索体验和互联网秩序，对互联网搜索构成重大挑战。传统的基于链接分析的排序算法如PageRank算法并不能有效地解决这个问题。搜索引擎作弊检测简单地将网页区分为作弊和非作弊，而一般的排序算法研究的特征没有考虑到网页的作弊特性，使得算法对于作弊网页不能给出一个正确的排序。我们由此针对作弊网页的排序问题进行研究，希望能够针对网页的质量给出公正的排序，作为搜索引擎的一个重要参考和补充。本课题引申的4个子课题均是由此为目标展开：(1)提取能反映网页作弊特性的特征;(2)发展新的可扩展的排序学习算法；（3）研究半监督的排序学习问题；（4）利用在线算法和用户反馈构建动态的排序模型。本课题的顺利开展将会改善搜索质量、节省搜索引擎能耗以及规范互联网秩序。

项目摘要

搜索引擎作弊行为的猖獗严重地影响了用户的搜索体验和互联网秩序，对互联网搜索构成重大挑战。搜索引擎作弊检测简单地将网页区分为作弊和非作弊，而一般的排序算法研究的特征没有考虑到网页的作弊特性，使得算法对于作弊网页不能给出一个正确的排序。我们由此针对作弊网页的排序问题进行研究，希望能够针对网页的质量给出公正的排序，作为搜索引擎的一个重要参考和补充。本项目通过分析Web作弊统计的特点，拓展现有的排序学习算法，并将它应用到多标号学习算法上，另外，本项目在实施的过程中还注重机器学习理论的研究，开展了一些计划外的研究。本项目的主要研究内容简述如下：. 本项目以公开的UK2006/2007数据集为基础，研究了多种特征与网页(网站)作弊之间的关系，提取多个不同视角的特征：内容特征、链接特征、主站特征和TFIDF特征等，便于排序算法进行作弊检测。. 通过分析不同的排序学习算法的优劣，从三方面对排序算法进行研究：(i) 基于多类分类算法AdaBoost算法提出两个新的基于point-wise的排序算法；(ii) 通过优化pair-wise损失函数来近似地优化NDCG度量准则，从而设计出基于pair-wise损失的排序算法；(iii)在编码和解码(encoding and decoding)的框架下，通过融合多个二值pair-wise排序模型得到一个新的排序算法(MultiRank.ED)。. 基于排序的思想，本项目提出一个基于排序的多标号学习算法，该算法旨在通过扩展现有的LVQ算法来处理多标号分类问题(ML-LVQ)。它通过最小化标号集上的误分损失以近似的最小化排序度量值。进一步，算法通过元标号分类器来预测测试样本的标号，改进了算法 bipartition度量，这样避免了昂贵的交叉验证阈值策略。.随着研究的进一步深入展开，项目组还在以下方面开展研究：多标号学习的应用、分布式机器学习平台、最优化理论在机器学习中的应用以及各种形式的作弊检测等。. 本课题取得的成果包括：发表12篇论文(其中3篇SCI，9篇EI)，出版译著1本，申请专利1项，参加ECML/PKDD2010作弊检测和网络内容质量评价国际测评获第1名构建一个网页排序数据集并开源一个Java机器学习应用平台。本项目的顺利开展将会有效地改善搜索质量、节省搜索引擎能耗以及规范互联网秩序。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.1360/SSM-2020-0035

发表时间：2020

DOI：10.12305/j.issn.1001-506x.2022.03.19

发表时间：2022

DOI：10.11834/jrs.20209056

发表时间：2020

DOI：10.21656/1000-0887.390057

发表时间：2019

DOI：10.19734/j.issn.1001-3695.2020.12.0564

发表时间：2021

靳小波的其他基金

相似国自然基金

基于集成学习的网页链接作弊检测

批准号：61300190

批准年份：2013

负责人：刘馨月

学科分类：F0205

资助金额：22.00

项目类别：青年科学基金项目

新型计算环境下的排序问题

批准号：11271325

批准年份：2012

负责人：张国川

学科分类：A0406

资助金额：50.00

项目类别：面上项目

非线性环境下的排序问题研究

批准号：11801505

批准年份：2018

负责人：林凌

学科分类：A0406

资助金额：21.00

项目类别：青年科学基金项目

复杂生产制造环境下的排序问题研究

批准号：11471286

批准年份：2014

负责人：胡觉亮

学科分类：A0405

资助金额：70.00

项目类别：面上项目

作弊环境下的网页排序问题研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

现代优化理论与应用

空中交通延误预测研究综述

基于编解码网络的航空影像像素级建筑物提取

一类随机泛函微分方程带随机步长的EM逼近的渐近稳定

基于边信息的高光谱图像恢复模型

靳小波的其他基金

相似国自然基金