Web数据的海量、动态、异构等特点,使得传统的信息抽取模型和算法面临精度、自动化程度、通用性和时空性能等方面的挑战。鉴于网页解析树结构模式对语言不敏感,具有易定位、可演化、可迁移的优点,本课题重点开展基于树结构模式挖掘的Web信息抽取问题研究。通过深入分析Web数据源的特点,研究适用于Web信息抽取的树结构模式表示模型。研究具有强区分定界能力的树结构模式发现问题,寻求快速有效的抽取模式树挖掘方法,并研究网页结构动态变化环境下的变化检测方法和抽取模式树知识演化机制和方法。另外,为了提高获取新的未标注Web数据源抽取模式知识的自动化程度,研究模式树知识可迁移性问题以及知识迁移机制与方法。在上述工作基础上,面向Web服务应用领域,构建基于树结构模式挖掘的Web信息抽取问题求解原型系统,以现实的中文、英文、藏文等语言的新闻网页数据、Web表格数据等为数据源,检验所提理论与方法的合理性与可行性。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
基于全模式全聚焦方法的裂纹超声成像定量检测
服务经济时代新动能将由技术和服务共同驱动
基于树结构模式Web信息抽取的关键问题研究
WEB文本挖掘中知识模式的抽取和评价机制
基于Web的图像检索与信息挖掘研究
Web图像视觉模式挖掘及其应用