基于查询日志的数据库自动模式匹配技术研究

基本信息
批准号:61303016
项目类别:青年科学基金项目
资助金额:26.00
负责人:丁国辉
学科分类:
依托单位:沈阳航空航天大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:张翼飞,范纯龙,杜超,余玲,张弛,朱梦影,乔红
关键词:
模式匹配查询日志相似性特征匹配搜索
结项摘要

Schema matching is widely used in many database applications, such as data integration, dataspaces and data warehouse,etc. The information mainly used by existing matching technologies includes properties of schema itself, data instances, schema structures, etc. In terms of improvements of match accuracy, the utilization of these information has reached bottleneck state. Meanwhile, current problems of data sharing and data exchange make schema matching a hot research problem. Consequently, lots of work should be paid to schema matching field.This project will study automatical schema matching techniques based on query logs. Nowadays, researches on this subject are very few. There are lots of information about schemas in query logs, and business similarities between different applications in similar domains are implied in query logs. These similarities can be used to find semantics correspondences between schema elements. The specific research in this project includes: 1) the method extracting similarity feature; 2) the expression model of similarity feature; 3) measurement technologies of candidate matches; 4) searching the optimal match. We develop a schema matching prototype system to validate correctness and the effectiveness of our research results. These results contribute to improve the accuracy of schema matching, and are significant in theory aspect and practice aspect.

模式匹配广泛应用于数据库相关领域中,例如数据集成、数据空间、数据仓库等。现存匹配技术主要利用模式自身属性、数据实例以及模式结构等信息来发现匹配,就提高匹配的准确性而言,这些信息的利用已处于瓶颈阶段。同时,当前的数据共享、数据交换等问题也使得模式匹配成为一个研究热点,因此,模式匹配领域仍然需要大量的研究。本项目将研究基于数据库查询日志的自动模式匹配技术,目前,此方面的研究寥寥无几。查询日志中包含大量的与模式有关的信息,同时日志中暗含了相似领域内不同应用之间的业务相似性,这些相似性可用来发现模式元素之间的语义对应关系。具体研究内容如下:1) 日志中相似性特征的抽取方法;2) 相似性特征的表达模型;3) 候选匹配的评价技术;4) 最优匹配的搜索技术。同时,构建一个模式匹配原型系统来验证研究成果的正确性和有效性。相关研究成果将有助于提高模式匹配结果的质量,具有重要的理论意义和潜在的应用价值。

项目摘要

大部分数据管理应用的本质问题都是模式匹配,这些数据管理往往需要在多个数据源之间进行数据共享和数据交换。近些年,各行各业积攒的大量的信息形成了一种数据无处不在的情况,这种情况促使了模式匹配的需求快速地增长。互联网用户希望他们能够通过统一的、一致的界面就可以获得对其有价值的信息,而不是重复地、一次又一次地访问一些相似的网站。模式匹配正是解决这一问题的有效手段,给定源模式和目标模式,模式匹配的任务是发现两个模式元素之间的语义对应关系。现存匹配技术主要利用模式自身属性、数据实例以及模式结构等信息来发现匹配,就提高匹配的准确性而言,这些信息的利用已处于瓶颈阶段。查询日志中包含大量的与模式有关的信息,同时日志中暗含了相似领域内不同应用之间的业务相似性,这些相似性可用来发现模式元素之间的语义对应关系。因此,本课题主要研究了基于数据库查询日志的自动模式匹配技术。具体研究的内容包括:查询日志分析与处理;相似性特征的表达模型;基于相似性特征的子句评价技术;候选匹配的评价技术;最优匹配的搜索技术。通过分析查询日志,得出查询频率、查询子句作用、查询子句间关系、查询子句本身内容等可以用于发现模式匹配的相似性。提出了EAV数据模型和关联图模型用于表达相似性。提出了基于对象属性相似性分值和基于结构相似性分值的相似性特征子句评价技术。针对候选匹配评价,提出了基于序列中属性的顺序和属性序列相似性分解的匹配评价技术。本课题针对模式匹配问题提出了一系列基于查询日志的模式匹配技术,在查询日志可用的情况下,这些技术可以单独用于提高模式匹配的精度,也可以辅助其他主流的模式匹配技术进而提高模式匹配的精度。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
2

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

DOI:10.7606/j.issn.1000-7601.2022.03.25
发表时间:2022
3

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

DOI:
发表时间:2018
4

基于全模式全聚焦方法的裂纹超声成像定量检测

基于全模式全聚焦方法的裂纹超声成像定量检测

DOI:10.19650/j.cnki.cjsi.J2007019
发表时间:2021
5

水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应

水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应

DOI:10.3864/j.issn.0578-1752.2019.03.004
发表时间:2019

丁国辉的其他基金

批准号:19975031
批准年份:1999
资助金额:7.50
项目类别:面上项目

相似国自然基金

1

云数据库查询模式集自动生成与检索关键技术研究

批准号:61170184
批准年份:2011
负责人:袁晓洁
学科分类:F0211
资助金额:55.00
项目类别:面上项目
2

数据库的新型查询技术研究

批准号:61003004
批准年份:2010
负责人:李国良
学科分类:F0202
资助金额:21.00
项目类别:青年科学基金项目
3

日志模式提炼与跨类型日志分析方法研究

批准号:61702477
批准年份:2017
负责人:赵一宁
学科分类:F0211
资助金额:25.00
项目类别:青年科学基金项目
4

基于关键词的关系数据库查询技术研究

批准号:61303004
批准年份:2013
负责人:林子雨
学科分类:F0202
资助金额:23.00
项目类别:青年科学基金项目