完整有效的Web信息抽取包括网页获取、数据抽取及数据集成三个密切相关的过程。但目前大多数信息抽取研究着重于关注单网页数据抽取规则和包装器生成技术,忽略或简化了深度网页的复杂交互和访问获取问题,亦忽略或简化了抽取数据的结构化语义处理与集成问题以至难以完成复杂结构数据记录的抽取集成;且很多研究着重于用机器学习等自动化方法完成抽取规则生成和数据抽取,带来抽取数据精度不高、缺少结构语义等缺陷,难以满足精确信息定制服务应用需求。本课题针对信息定制服务应用需求,围绕完整有效的Web信息抽取全过程,研究面向复杂结构的精确Web信息抽取集成综合模型和关键技术,用网页交互和导航通用模型和技术解决复杂的深度网页交互和导航获取问题,用基于用户交互和数据块自动结构分析的综合方法解决抽取规则生成及数据精确化抽取问题,用记录命名空间和结构映射方法解决复杂数据记录的数据关系和结构语义处理及最终的数据集成技术问题。
按照立项申请书规定的研究要求,本项目已顺利完成。主要研究成果如下:.(1) 研究提出了三阶段全过程化Web信息抽取集成模型和框架。针对目前绝大多数Web信息抽取技术和系统仅仅关注网页数据抽取、忽略前端的网页自动浏览导航访问和后端的数据集成的缺陷,研究提出了包含网页自动浏览导航、网页数据抽取和数据集三阶段全过程化Web信息抽取集成模型和框架。.(2) 研究提出了Web信息抽取过程中的自动化浏览导航模型和方法, 并设计实现了一种网页自动浏览导航规则语言, 该语言能模仿和刻画用户在浏览器中的交互和浏览导航行为。.(3) 研究实现了通用的Web信息抽取规则体系与抽取规则语言,同时,为了减轻用户手工生成抽取规则的操作负担,研究实现了基于网页结构分析的自动化数据抽取方法、基于小样本学习的抽取规则推导和生成技术、以及基于小样学习的自动化文本抽取规则生成技术;.(4) 研究设计了Web信息抽取过程的数据转换集成模型和方法, 借助于数据仓库中ETL模型的设计思想,研究提出了一种ETI(Extraction,Transformation and Integration)数据抽取和集成模型和方法,并研究解决了多网页数据关系维护和数据集成问题,设计实现了相应的数据集成规则语言。.(5) 为了实现Web信息抽取过程中对网页浏览导航、网页数据抽取和集成的复杂流程和逻辑控制,研究实现了一种灵活的Web信息抽取流程控制语言。.(6) 在以上关键技术研究的基础上,研究设计并实现了全过程化网页自动浏览导航、网页数据抽取、数据集成、以及流程控制规则执行引擎, 并设计实现了完整的Web抽取原型系统。.(7) 在原型系统设计实现的基础上,完成了4个Web信息抽取实验性抽取应用。.(8) 研究成果在国内和国际学术会议,国内外刊物发表论文8篇,培养博士生1人,硕士生8人(已经毕业3人);.(9) 申请发明专利5项,申请软件著作权1项;.(10) 所研究实现的技术和原型系统具有显著的应用前景,目前已有数家企业洽谈拟投资1千万元将本项目的原型系统产品化,以用于各种大规模Web数据的抓取和分析挖掘应用服务。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
论大数据环境对情报学发展的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
WEB数据抽取与集成技术研究
Deep Web数据集成查询结果抽取与整合关键技术研究
面向Web数据集成的半结构化Web数据自适应抽取与整合问题研究
基于树结构模式Web信息抽取的关键问题研究