基于特征建模优化与判别学习的Web spam识别技术研究

基本信息
批准号:61170145
项目类别:面上项目
资助金额:57.00
负责人:张化祥
学科分类:
依托单位:山东师范大学
批准年份:2011
结题年份:2015
起止时间:2012-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:计华,刘丽,宋信敏,丁艳辉,王至超,孙晓燕,刘一鸣,曹林林
关键词:
谱聚类过采样迁移学习spam建模判别分类
结项摘要

Web spam已成为Web信息检索面临的重要问题,开展该研究有利于spam识别,其理论成果也可用于识别敏感页面。目前研究大多通过定义启发式函数实现spam页面识别,精度不高、泛化能力差。课题拟从spam页面特征建模及优化,不平衡数据的过取样处理及基于问题相关的判别学习算法几方面对该问题进行系统研究,提出spam特征识别模型及优化策略,构建引入spam页面局部及全局一致性特点的识别函数,同时研究使用迁移学习技术,充分利用相关问题辅助训练样例,建立Web spam识别的系统化理论模型及算法,提高spam识别效果及算法泛化能力。

项目摘要

(1) 项目背景.一般地,在搜索结果中越是排在前面的网站,就意味着它的重要程度越高,也就能吸引到更多的用户访问它,因此给它带来的商业利润也越大。因此,垃圾网页制作者出于经济或商业利益,采用各种各样的不正当手段欺骗搜索引擎,达到在搜索结果中排序靠前,从而获取较高点击率的目的。近些年来,Web spamming已逐渐成为困扰搜索引擎的严重问题,它使垃圾网页排在某些正常网页前面,骗取用户点击,严重干扰用户获取信息。这在很大程度上破坏搜索质量,降低用户对搜索引擎的信任度。.(2) 主要研究内容.按照课题研究计划,我们搜集、阅读了大量相关科技文献,及时跟踪学术前沿,并组织了专家讨论会,制定了详细的研制计划,针对web页面特征选择、web页面与spam页面不平衡问题以及针对判别学习技术在spam页面识别方面存在的问题,我们做了大量的工作,并取得了一系列研究成果。.项目组深入全面地研究了网页特征,提出把网页特征作为垃圾网页识别的辅助手段;建立内容特征和链接特征的协同模型用于检测垃圾网页;基于嵌套旋转森林对垃圾网页的不平衡数据集分类;利用自标记技术结合多分类器模型,对垃圾网页的不平衡数据集分类;利用网页排分检测垃圾网页;基于网络链接结构利用双向趋势信息反馈进行垃圾网页检测;基于拟合特征分布的垃圾网页检测方法;基于结合内容特征的TrustRank算法改进;基于独立成分分析和协同训练的垃圾网页检测;基于多视图典型相关分析的垃圾网页检测;基于SMOTE和随机森林的Web spam检测,等等。.(3) 重要结果、关键数据及其科学意义等 .特征选择及优化方面。分析正常页面与Spam页面间判别能力大的特征,选择相关特征,同时利用典型分析技术,将多视图特征加以融合,,提高页面识别的准确率,取得了很好的效果;.过采样方面。提出了基于同分布假设,生成少数类样本的技术。只有保持数据分布不变的情况下,实现少数类样例过采样,才能学习到无偏的分类器。丰富的实验结果表明,该方法有利于提高少数类的分类精度;.识别算法方面。依据spam问题特点,充分考虑页面间的局部及全局一致性,定义适用问题的目标优化函数,提出了改进的SVM分类算法。.其他成果研究表明,针对特征层面、数据层面及算法层面的研究可以有益结合,提高spam页面的识别效率。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
3

双吸离心泵压力脉动特性数值模拟及试验研究

双吸离心泵压力脉动特性数值模拟及试验研究

DOI:10.13465/j.cnki.jvs.2020.19.016
发表时间:2020
4

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
5

空气电晕放电发展过程的特征发射光谱分析与放电识别

空气电晕放电发展过程的特征发射光谱分析与放电识别

DOI:10.3964/j.issn.1000-0593(2022)09-2956-07
发表时间:2022

张化祥的其他基金

批准号:61373081
批准年份:2013
资助金额:78.00
项目类别:面上项目
批准号:61772322
批准年份:2017
资助金额:66.00
项目类别:面上项目
批准号:61572298
批准年份:2015
资助金额:67.00
项目类别:面上项目
批准号:U1836216
批准年份:2018
资助金额:245.00
项目类别:联合基金项目

相似国自然基金

1

基于判别特征学习的非接触式掌纹识别方法研究

批准号:61702110
批准年份:2017
负责人:费伦科
学科分类:F0605
资助金额:24.00
项目类别:青年科学基金项目
2

基于极限学习单元的多生物特征图像深度学习建模与识别研究

批准号:61502338
批准年份:2015
负责人:杨巨成
学科分类:F0605
资助金额:20.00
项目类别:青年科学基金项目
3

图像识别的多特征判别流形学习方法研究

批准号:60872082
批准年份:2008
负责人:赵嘉莉
学科分类:F0116
资助金额:32.00
项目类别:面上项目
4

基于深度判别特征学习的SAR图像地物分类

批准号:61703332
批准年份:2017
负责人:赵志强
学科分类:F0604
资助金额:28.00
项目类别:青年科学基金项目