网络信息已迅速成为现代社会人们获取信息的主要来源之一,Web信息检索技术也起到越来越重要的作用。但是由于网络数据的大量膨胀,目前拥有最大规模网页索引量的搜索引擎能够索引并检索的网页数量仍不及整个Internet上的所有网页的六分之一。在未来很长的时间里,随着网络技术在更多国家中得到发展,Web数据将继续持快速增长的趋势,这对数据收集、建立和更新索引及检索都带来难以逾越的障碍。因此,如何通过与用户查询无关的方法来判断一个网页的质量,从而预先过滤掉部分网页,而保留最有价值的数据,已成为未来搜索引擎技术的一大挑战。本项目的主要目的就是研究Web信息检索服务的高质量页面筛选方法,考察并提出高质量页面的识别特征和定位算法,在数据收集层面上净化数据;并在此基础上,建立应用于高质量页面集合的信息检索模型与方法。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应
中外学术论文与期刊的宏观差距分析及改进建议
空气电晕放电发展过程的特征发射光谱分析与放电识别
大规模Web共享图像的关联分析和主题检索
Web页面数据对象的感知理解与计算
Web垃圾页面应对技术研究
基于Web的信息主题的检测与跟踪研究