Inconsistent data implies invalid information, and so do query answers over it, while its strong representation of correcting and deleting inconsistent data usually result in error or information loss. Instead, we try an approach named Annotation Based Query Answer to recognize and mark out inconsistent data down to attribute level in both source data and query result, so that valuable query answer can be returned without information loss and data change. In this approach, every piece of data in a relation can have zero or more annotations with it and annotations are propagated along with queries from the source to the output. .The approach mainly focus on the next problems: 1) a data model for inconsistent database, a set of algebra queries over it and a set of rules to propagate annotations during the query evaluation, so that Annotation Based Query Answer can be correctly calculated even if the database violates multi types of integrity constraints; 2) algorithms to check and annotate the input tables, and query rewriting algorithms to translate typical user SQL query into a set of queries that can return annotation based query answer; 3) an annotation system for users to express inconsistent reason and indicate right value of inconsistent data, and algorithms to repair source data or rank query answer based on user's annotations, allowing those annotations are conflicting and incredible.And techniques for organizing, storing, indexing and managing annotations used in the approach..This approach is helpful for wide applications such as data exchange, data integration, data extraction, science data management and sensor networks.
不一致数据内含异常和矛盾,其上的查询结果也可能不一致,而不一致数据的纠正和剔除往往导致信息失真和信息丢失。本课题研究不一致关系数据的识别及其在查询结果中的推演和排序,在不丢失信息,不修改数据的前提下,帮用户在属性级别区分一致和不一致数据。主要研究内容有:1)在综合约束范围内,定义一种全新的不一致数据模型- - 带标记的关系数据模型,寻找不一致标记在各类查询中的推理规则集,并发展该模型上的查询代数,使得不一致标记能在查询估值中正确传承;2)研究带标记查询计算的实现,寻找不一致数据的自动检测和标识算法,给出各类用户查询到带标记的查询之间的重写算法;3)将用户对不一致数据的取舍抽象为二次标记,提出基于二次标记的不一致查询结果排序和修复算法,并针对两类标记的附属性、稀疏性和高维度性特点,给出其存储和索引方法。本课题研究成果在数据交换、数据整合、数据抽取和传感网络等多类应用中均有实际应用价值。
不一致数据内含异常和矛盾,其上的查询结果也可能不一致,而不一致数据的纠正和剔除往往导致信息失真和信息丢失。本项目研究不一致关系数据的识别及其在查询结果中的推演和排序,在不丢失信息,不修改数据的前提下,帮用户在属性级别识别查询结果中的不一致数据,并对冲突数据的正确度进行估算和排序。..本项目首先在综合约束范围内,对前期提出的的研究方案——基于标记的不一致数据查询回答(Annotation Based Query Answer over Inconsistent Database,AQA)作了进一步完善,确定采用静态标记和动态标记来描述不一致数据,并研究了函数依赖、包含依赖、域约束、多值依赖单独发生和同时发生时,动态标记在5种基本关系代数查询中的推演规则,扩展传统关系代数,设计了用于求解带标记查询结果的查询重写算法,使得不一致数据库上的最常见的SPJ、Union和Difference查询能得到带标记的查询结果,实现了AQA的Demo系统。另外,本项目还考查了新型约束在特定数据的不一致检测和清洗中的作用,提出了基于多证据融合的相似重复记录识别算法,给出了它在MapReduce框架下的实现。..其次,本项目将历史用户对不一致数据的取舍及标记抽象为二次标记,提出基于二次标记的不一致查询结果排序和修复方法,并针对二次标记的附属性、稀疏性和高维度性特点,给出了标记数据库的数据库模式。..再次,本项目研究了标记可信度估算问题。本课题拟综合考虑用户可信度、标记获得的赞同和不赞同度、用户历史评价的价值等因素计算这些用户标记的可信度,对同一数据上的众多二次标记进行排序。另外,本项目还提出了基于标记者和标记对象语义关联度的二次标记可信度估算算法。..最后,针对二次标记可信度估算中出现的新问题——大数据环境下,标记对象和标记者属性庞大,且标记者和对象的标记关系的稀疏性,本项目提出了2种稀疏表示方法:带权弹性网(Weighted Elastic Net)和局部约束的核协同表示(kernel locality constrained CR),以及基于他们的判别分析算法。另外本项目还提出了一种基于局部约束与低秩表示的隐子空间分割算法,使得用户标记可信度估算算法在海量数据下仍然可行。..本课题研究成果在数据交换、数据整合、数据抽取和传感网络等多类应用中均有实际应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
温和条件下柱前标记-高效液相色谱-质谱法测定枸杞多糖中单糖组成
肉苁蓉种子质量评价及药材初加工研究
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
Himawari-8/AHI红外光谱资料降水信号识别与反演初步应用研究
缺失和不一致数据环境下描述逻辑查询回答的高效方法研究
基于关键词的关系数据库查询技术研究
关系数据库上关键字查询的若干前沿问题研究
带函数的回答集程序设计研究与实现