基于域知识的自定义Web对象自动抽取技术

基本信息
批准号:61363005
项目类别:地区科学基金项目
资助金额:47.00
负责人:张敬伟
学科分类:
依托单位:桂林电子科技大学
批准年份:2013
结题年份:2017
起止时间:2014-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:杨青,张会兵,张海涛,姚罡,林煜明,郑卓远,马林威,黄金龙,俞强生
关键词:
海量数据语义导向抽取自定义对象抽取
结项摘要

Web contains massive object data, which have huge value for Web applications, it is very significant for users with different requirements to manage and use these data easily. Web data extraction technologies are responsible for separating Web object data from complicated Web pages, but existing Web data extraction technologies do not support user interface for defining target object and can not satisfy personalized extraction requirement for their structure-oriented extraction strategy. Especially, lack of performance optimization design is hindering large-scale application of extraction technologies. Considering the above requirements and corresponding challenges, firstly, this project will study the definition technology of different Web objects by regular tree. Secondly, probabilistic equivalence class of labels will be introduced to design accurate semantic annotation methods on Web pages with domain knowledge, and then construct training set automatically. Thirdly, we will explore semantics-oriented learning methods of extraction rules by merging inductive logic programming and active learning technology. All above studies will help us achieve double benefit on both extraction automation and users' satisfaction. Finally, we will establish the prototype system to support customized Web object extraction, on which extensive experiments will be carried out to verify the effectiveness and scalability of proposed methods. Theoretical analysis on the experiment results will guide us to design performance optimization model and improve extraction performance for large-scale applications. Because of both the full consideration of users' requirements and the detailed analysis of existing extraction technologies, this project can help users to exploit the value of Web data, expand the application areas of extraction technologies, and will show great significance in theory and application.

Web包含海量的对象描述数据,其具有巨大应用价值,让这些数据易于管理和使用对不同数据需求的用户具有重要意义。Web数据抽取技术负责将Web对象数据从复杂的Web页面中分离出来,但现有的Web数据抽取技术多采用结构导向的抽取策略,不支持目标对象定义接口,不能满足用户的个性化需求,而且对大规模抽取缺乏性能优化设计。本项目针对上述需求与挑战,系统研究基于正则树的对象定义技术,引入标签概率等价类设计基于域知识的高准确度Web页面语义标注和训练集自动构建方法,探索语义导向的归纳逻辑和主动学习融合的抽取规则生成技术,让Web 对象抽取在抽取自动化和用户满意度上取得双重受益。同时,基于研究的成果建立原型系统,执行大规模实验验证方法的有效性和可扩展性,结合充分的理论分析,设计性能优化模型。本项目以用户需求为出发点,有助于充分开采Web数据的价值,拓展抽取技术的应用范畴,具有重要的理论意义和应用价值。

项目摘要

Web是典型的大数据聚集地,其集成了丰富多样的结构化对象信息和用户评论等内容,Web数据不仅展示了丰富多彩的信息世界,也蕴含了现实世界用户的行为、观点等,已成为各类新型应用的基础,具有重要应用价值。但是,面向信息展示的Web数据不易管理,如何基于需求抽取目标Web数据、提升数据质量是当前的研究焦点之一。本项目主要聚焦Web对象描述与结构定义、Web内容的自动语义标注和训练集自动构建技术、训练集不完整情形下的自定义 Web 对象抽取规则生成技术、大规模Web数据的分布式存储模型与访问优化等研究内容,提出了有效的解决方法和方案,并开展了严谨的理论分析和实验验证,在实际Web环境下取得很好的效果。主要提出了Web抽取对象的正则树近似结构表达模型、基于主动学习的训练集构建方法、Web页面结构特征和内容语义特征的Web对象自动抽取技术等一套Web对象数据抽取解决方案,其针对不同Web环境下的抽取具有很好的自适应性,准确率均在91%以上;分别基于Spark和Hadoop设计了分布式计算平台下的大规模数据存储与处理优化技术,提升了各类Web数据(抽取前和抽取后)的管理能力,支持TB级别数据的快速存取;同时,设计并实现了Web数据爬取与自动抽取系统,自行搜集了1.6TB的各类实验数据,设计并开展大规模的实验验证,提出了面向大规模对象抽取的性能优化技术。本项目研究成果为诸如Web数据集成与查询、观点挖掘、舆情分析等应用提供了数据获取和保证数据质量方法,对应用海量Web数据建立新型应用奠定了技术和方法基础。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
3

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021
4

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021
5

混采地震数据高效高精度分离处理方法研究进展

混采地震数据高效高精度分离处理方法研究进展

DOI:10.3969/j.issn.1000-1441.2020.05.004
发表时间:2020

张敬伟的其他基金

相似国自然基金

1

WEB文本挖掘中知识模式的抽取和评价机制

批准号:60373095
批准年份:2003
负责人:林鸿飞
学科分类:F0211
资助金额:23.00
项目类别:面上项目
2

WEB数据抽取与集成技术研究

批准号:60273018
批准年份:2002
负责人:孟小峰
学科分类:F0202
资助金额:22.00
项目类别:面上项目
3

基于约束对象的语义Web智能代理技术的研究

批准号:60373057
批准年份:2003
负责人:廖乐健
学科分类:F0202
资助金额:14.00
项目类别:面上项目
4

基于知识和面向对象的协议自动实现方法与支持环境

批准号:69273026
批准年份:1992
负责人:史美林
学科分类:F0207
资助金额:5.00
项目类别:面上项目