基于本体的Deep Web搜索技术

基本信息
批准号:60973040
项目类别:面上项目
资助金额:29.00
负责人:左万利
学科分类:
依托单位:吉林大学
批准年份:2009
结题年份:2012
起止时间:2010-01-01 - 2012-12-31
项目状态: 已结题
项目参与者:赫枫龄,彭涛,张雪松,张立彪,梁浩,王英,陈珂锐,李斌,王俊华
关键词:
FocusedDeep本体CrawlingWeb
结项摘要

随着Web信息的激增,越来越多的信息开始由静态网页存储的方式向Web服务器维护的数据库即Deep Web转移,与Surface Web相比,Deep Web包含的信息具有更高的质量,同时也是Web上增长速度最快的信息载体,对Deep Web的研究已是Web搜索领域迫在眉睫的任务。.本研究综合应用本体研究Deep Web搜索技术。结合Focused Crawling自动发现Deep Web站点,高效收集Deep Web数据库;准确抽取Deep Web入口表单的属性,获取查询接口的模式信息;设计基于本体的模式匹配算法,指导Deep Web数据库查询接口的模式匹配与融合;研究多数据库入口表单的查询分发与自动填充,实现统一表单接口下多Deep Web数据库的查询;最后以统一的模式将各个Deep Web数据库返回的不同形式查询结果展现给用户。基于上述技术构造某一领域Deep Web搜索的原型系统。

项目摘要

本项目综合应用本体研究Deep Web搜索技术。对Deep Web搜索问题进行了系统、深入的研究,在Deep Web入口发现、表单模式抽取与集成、表单填充、查询分发、查询结果后处理等方面取得了系列化研究成果:(1)Deep Web入口发现是实现Deep Web搜索的基础,为了高效定位Deep Web入口,提出了Deep Web入口发现框架WFF,该框架通过应用主题爬行技术和本体技术以层次形式构造网页分类器(WPC)、表单结构分类器(FSC)和表单内容分类器(FCC),实现了特定领域Deep Web入口的自动发现。(2)查询接口是外部访问Deep Web数据库的门户,为了准确抽取查询接口模式,设计了基于启发式规则信息的查询接口区域定位算法以及基于网页可视化特征和本体的Deep Web查询接口语义属性抽取算法,从而获取查询接口的语义模型。(3)Deep Web接口集成主要完成两个方面的工作:接口模式匹配与接口模式融合。接口模式匹配采用本体概念映射方法,在不同接口模式间建立属性映射关系,实现不同Deep Web数据库查询接口属性的匹配过程。接口模式融合根据接口模式匹配的结果,合并了Deep Web数据库查询接口集合中表示同一语义的属性,保留了一些查询接口中特定的属性,从而得到集成查询接口。(4)Deep Web表单自动填充的本质是用源表单查询构造目标表单查询,为了准确实现查询转换,设计了基于本体的查询转换算法,将用户提交的查询条件分解成与各个Deep Web数据库查询接口相适应的查询条件,实现用户透明的全局统一查询接口向各个Deep Web表单的查询分发与表单自动填充。(5)Deep Web查询结果后处理最终要将从各个Web数据库获得的数据合并为统一的模式返回给用户,为此,设计了基于本体的最大相关度子树算法用于识别查询结果数据区域,并利用混合的启发式规则对数据记录进行分割和抽取,同时,使用本体对抽取的数据进行注释,实现了异构查询结果页面的集成。(6)构建了一个面向图书领域的DeepSearch搜索系统。基于本项目,课题组在SCI期刊、EI国际期刊、国际会议、一级学报和核心期刊上共发表论文26篇,其中SCI国际期刊3篇、EI国际期刊12篇、一级学报3篇。被SCI检索3次、EI检索15次、ISTP检索3次。此外,申请专利1项,软件著作权1项。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

Vibration suppression of drilling tool system during deep-hole drilling process using independence mode space control

Vibration suppression of drilling tool system during deep-hole drilling process using independence mode space control

DOI:10.1016/j.ijmachtools.2020.103525
发表时间:2020
2

中外学术论文与期刊的宏观差距分析及改进建议

中外学术论文与期刊的宏观差距分析及改进建议

DOI:
发表时间:2021
3

Terpenoids from the deep-sea-derived fungus Penicillium thomii YPGA3 and their bioactivities

Terpenoids from the deep-sea-derived fungus Penicillium thomii YPGA3 and their bioactivities

DOI:10.3390/md18030164
发表时间:2020
4

Deep Learning With 18F-Fluorodeoxyglucose-PET Gives Valid Diagnoses for the Uncertain Cases in Memory Impairment of Alzheimer's Disease

Deep Learning With 18F-Fluorodeoxyglucose-PET Gives Valid Diagnoses for the Uncertain Cases in Memory Impairment of Alzheimer's Disease

DOI:
发表时间:2021
5

Surface Defects Recognition of Wheel Hub Based on Improved Faster R-CNN

Surface Defects Recognition of Wheel Hub Based on Improved Faster R-CNN

DOI:doi:10.3390/electronics8050481
发表时间:2019

左万利的其他基金

批准号:60373099
批准年份:2003
资助金额:23.00
项目类别:面上项目
批准号:69673015
批准年份:1996
资助金额:8.00
项目类别:面上项目

相似国自然基金

1

语义Web本体的搜索方法与技术

批准号:60773106
批准年份:2007
负责人:瞿裕忠
学科分类:F0203
资助金额:28.00
项目类别:面上项目
2

面向Deep Web的数据整合关键技术研究

批准号:61872168
批准年份:2018
负责人:董永权
学科分类:F0211
资助金额:62.00
项目类别:面上项目
3

基于语义计算的海量Deep Web知识探索机制研究

批准号:61272411
批准年份:2012
负责人:赵峰
学科分类:F0207
资助金额:80.00
项目类别:面上项目
4

基于逻辑强化学习的Deep Web模式匹配研究

批准号:61070122
批准年份:2010
负责人:伏玉琛
学科分类:F06
资助金额:32.00
项目类别:面上项目