基于树结构模式Web信息抽取的关键问题研究

基本信息
批准号:61273297
项目类别:面上项目
资助金额:80.00
负责人:吴共庆
学科分类:
依托单位:合肥工业大学
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:张晶,张玉红,何伟,李小梅,林耀进,张靖,李世瀛,马艳红,李莉
关键词:
变化检测知识迁移Web信息抽取知识演化树模式挖掘
结项摘要

Web pages are massive, dynamic and heterogeneous, and these characteristics bring challenges to traditional information extraction models and algorithms in accuracy, degree of automation, versatility and space/time performance. As tree patterns of a Web page parsing tree are not sensitive to the language used for Web contents, these patterns have the advantages of being easy to locate, and able to evolve and transfer. This project aims at key issues of Web information extraction using tree patterns. Through in-depth analysis for extensive cases of Web data sources, tree patterns suitable for extracting Web information will be studied. How to mine tree patterns with a strong distinguishing ability will be investigated. On these foundations, efficient and effective extraction methods will be designed, and then change detection and evolution mechanisms will be proposed for the extracted pattern tree under a dynamically changing environment. In addition, transferring mechanisms and algorithms will be developed on tree patterns in order to improve the degree of automation of acquiring patterns from unlabeled Web data sources. Along with the above research issues, a Web information extraction prototype system will be implemented based on tree pattern mining for Web service applications, to demonstrate the soundness and feasibility of our proposed theory and techniques on real-world Web sources in Chinese, English, and Japanese, such as Web news and Web table pages.

Web数据的海量、动态、异构等特点,使得传统的信息抽取模型和算法面临精度、自动化程度、通用性和时空性能等方面的挑战。鉴于网页解析树结构模式对语言不敏感,具有易定位、可演化、可迁移的优点,本课题重点开展使用树结构模式的Web信息抽取的关键问题研究。通过深入分析Web数据源的特点,研究适用于Web信息抽取的树结构模式表示模型。研究具有强区分定界能力的树结构模式发现问题,寻求快速有效的抽取模式树挖掘方法,并研究网页结构动态变化环境下的变化检测方法和抽取模式树演化机制和方法。另外,为了提高获取新的未标注Web数据源抽取模式的自动化程度,研究模式树可迁移性问题以及知识迁移机制与方法。在上述工作基础上,面向Web服务应用领域,构建基于树结构模式挖掘的Web信息抽取问题求解原型系统,以现实的中文、英文、日文等语言的新闻网页数据、Web表格数据等为数据源,检验所提理论与方法的合理性与可行性。

项目摘要

Web信息抽取是一个开放性研究问题。本项目围绕基于树结构模式Web信息抽取的关键问题,面向特定网站和Web大数据环境下的多种来源、多种风格、多种语言的异构Web信息抽取任务,针对传统的抽取模型和方法面临高精确性、高自动化程度、高通用性难以共存的挑战性问题,从模型设计、问题描述及其复杂性分析、算法设计与分析、评价体系以及在实际领域的应用等方面,开展了系统地研究,取得了一批高水平论文、获奖、专利、软著、开源软件等系列成果。. 本项目完成了预定研究目标。建立了基于树结构模式的抽取模型、方法与评价体系;面向特定网站,研制出一种基于树结构模式的高精度Web内容抽取系统,提出了一种树结构模式挖掘问题,证明了该问题是一个NP完全问题,并设计了一个解决该问题多项式时间的(ln|n|+1)近似算法;面向Web大数据环境,设计了基于树结构模式的抽取特征系,并形成系列实时在线基于树结构模式特征的Web信息抽取方法,解决了Web大数据环境下的多种来源、多种风格、多种语言的异构Web网页信息抽取问题;在实际应用中构建了基于树结构模式的Web信息抽取机制、模型、方法和开源软件系统,并为相关研究领域提供了理论与技术框架支持。. 受本课题资助,经过四年的研究,项目执行情况良好,进展顺利,取得了较好的研究成果。在国际知名期刊TKDE、软件学报、JCST、国际知名会议CIKM、国际知名会议WI等发表论文10篇,其中:SCI收录论文5篇,EI收录论文8篇;获国际会议最优论文奖1项;基于该项目研究的成果,获授权发明专利2项,申请发明专利一项;在该项目研究成果的基础上,获软件著作权登记5项;以该项目的研究成果为核心技术,项目组发布的开源软件WebCollector入选“开源中国2014新增热门软件Top 100”,排名第五;培养硕士生6人,协助培养博士生1人、硕士生1人。. 本项目的研究工作为在大数据知识工程等相关领域进一步开展深入研究奠定了坚实的基础。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
3

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

DOI:10.7606/j.issn.1000-7601.2022.03.25
发表时间:2022
4

青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化

青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化

DOI:10.3799/dqkx.2020.083
发表时间:2020
5

基于FTA-BN模型的页岩气井口装置失效概率分析

基于FTA-BN模型的页岩气井口装置失效概率分析

DOI:10.16265/j.cnki.issn1003-3033.2019.04.015
发表时间:2019

吴共庆的其他基金

批准号:61005044
批准年份:2010
资助金额:7.00
项目类别:青年科学基金项目

相似国自然基金

1

基于树结构模式挖掘的Web信息抽取研究

批准号:61005044
批准年份:2010
负责人:吴共庆
学科分类:F0603
资助金额:7.00
项目类别:青年科学基金项目
2

WEB文本挖掘中知识模式的抽取和评价机制

批准号:60373095
批准年份:2003
负责人:林鸿飞
学科分类:F0211
资助金额:23.00
项目类别:面上项目
3

面向复杂结构的精确Web信息抽取集成模型与关键技术研究

批准号:61072152
批准年份:2010
负责人:黄宜华
学科分类:F0113
资助金额:32.00
项目类别:面上项目
4

WEB数据抽取与集成技术研究

批准号:60273018
批准年份:2002
负责人:孟小峰
学科分类:F0202
资助金额:22.00
项目类别:面上项目