主题爬虫是一种重要的Web资源发现和信息检索方法,有着重要的理论研究价值和应用前景。本课题是针对现有主题爬虫缺乏有效的知识积累和增量学习机制问题提出的,将重点研究基于可靠增量学习机制的主题爬虫模型,以及该模型中的一些关键算法,主要包括:研究基于自动特征加权的超文本聚类算法和超链接结构模式发现算法,来实现对爬行结果的精确挖掘,并生成高可靠爬行知识,从而实现了主题爬虫的知识积累机制;同时还研究能从爬行知识库中增量学习的页面相关度评价算法和超链接评价算法,使主题爬虫实现高可靠增量学习的目标,从而可以不断优化其爬行策略,最终从根本上提高主题爬虫系统的性能。本课题的主要创新之处在于:提出了基于爬行知识库的主题爬虫模型,以及基于爬行知识库的增量式页面相关度评价算法和超链接评价算法。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
多场景网络学习中基于行为-情感-主题联合建模的学习者兴趣挖掘关键技术研究
具有增量特性的移动式主题爬行技术
增量学习模型研究
基于多义性码书学习和主题建模的图像语义分类技术研究