Schema matching is widely used in many database applications, such as data integration, dataspaces and data warehouse,etc. The information mainly used by existing matching technologies includes properties of schema itself, data instances, schema structures, etc. In terms of improvements of match accuracy, the utilization of these information has reached bottleneck state. Meanwhile, current problems of data sharing and data exchange make schema matching a hot research problem. Consequently, lots of work should be paid to schema matching field.This project will study automatical schema matching techniques based on query logs. Nowadays, researches on this subject are very few. There are lots of information about schemas in query logs, and business similarities between different applications in similar domains are implied in query logs. These similarities can be used to find semantics correspondences between schema elements. The specific research in this project includes: 1) the method extracting similarity feature; 2) the expression model of similarity feature; 3) measurement technologies of candidate matches; 4) searching the optimal match. We develop a schema matching prototype system to validate correctness and the effectiveness of our research results. These results contribute to improve the accuracy of schema matching, and are significant in theory aspect and practice aspect.
模式匹配广泛应用于数据库相关领域中,例如数据集成、数据空间、数据仓库等。现存匹配技术主要利用模式自身属性、数据实例以及模式结构等信息来发现匹配,就提高匹配的准确性而言,这些信息的利用已处于瓶颈阶段。同时,当前的数据共享、数据交换等问题也使得模式匹配成为一个研究热点,因此,模式匹配领域仍然需要大量的研究。本项目将研究基于数据库查询日志的自动模式匹配技术,目前,此方面的研究寥寥无几。查询日志中包含大量的与模式有关的信息,同时日志中暗含了相似领域内不同应用之间的业务相似性,这些相似性可用来发现模式元素之间的语义对应关系。具体研究内容如下:1) 日志中相似性特征的抽取方法;2) 相似性特征的表达模型;3) 候选匹配的评价技术;4) 最优匹配的搜索技术。同时,构建一个模式匹配原型系统来验证研究成果的正确性和有效性。相关研究成果将有助于提高模式匹配结果的质量,具有重要的理论意义和潜在的应用价值。
大部分数据管理应用的本质问题都是模式匹配,这些数据管理往往需要在多个数据源之间进行数据共享和数据交换。近些年,各行各业积攒的大量的信息形成了一种数据无处不在的情况,这种情况促使了模式匹配的需求快速地增长。互联网用户希望他们能够通过统一的、一致的界面就可以获得对其有价值的信息,而不是重复地、一次又一次地访问一些相似的网站。模式匹配正是解决这一问题的有效手段,给定源模式和目标模式,模式匹配的任务是发现两个模式元素之间的语义对应关系。现存匹配技术主要利用模式自身属性、数据实例以及模式结构等信息来发现匹配,就提高匹配的准确性而言,这些信息的利用已处于瓶颈阶段。查询日志中包含大量的与模式有关的信息,同时日志中暗含了相似领域内不同应用之间的业务相似性,这些相似性可用来发现模式元素之间的语义对应关系。因此,本课题主要研究了基于数据库查询日志的自动模式匹配技术。具体研究的内容包括:查询日志分析与处理;相似性特征的表达模型;基于相似性特征的子句评价技术;候选匹配的评价技术;最优匹配的搜索技术。通过分析查询日志,得出查询频率、查询子句作用、查询子句间关系、查询子句本身内容等可以用于发现模式匹配的相似性。提出了EAV数据模型和关联图模型用于表达相似性。提出了基于对象属性相似性分值和基于结构相似性分值的相似性特征子句评价技术。针对候选匹配评价,提出了基于序列中属性的顺序和属性序列相似性分解的匹配评价技术。本课题针对模式匹配问题提出了一系列基于查询日志的模式匹配技术,在查询日志可用的情况下,这些技术可以单独用于提高模式匹配的精度,也可以辅助其他主流的模式匹配技术进而提高模式匹配的精度。
{{i.achievement_title}}
数据更新时间:2023-05-31
监管的非对称性、盈余管理模式选择与证监会执法效率?
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制
基于全模式全聚焦方法的裂纹超声成像定量检测
水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应
云数据库查询模式集自动生成与检索关键技术研究
数据库的新型查询技术研究
日志模式提炼与跨类型日志分析方法研究
基于关键词的关系数据库查询技术研究