As a critical component of big data quality management, integrity constraint has been widely used in many applications, such as health information management, enterprise information management, and so on. Nowadays, big data oriented integrity constraint management has been evolved from "evaluation before update" to "update independent of evaluation" phase, whose main challenge is how to manage holistic integrity constraints upon massive, distributed, increasing databases, inclusive of approximate unique constraint and (conditional) functional dependency. It's also challenging to detect and fix violations automatically. This proposal mainly focuses on four key aspects, including i)cluster-based parallel algorithms for high throughput, ii)novel synopsis data structures for distributed environments; iii) incremental method to avoid scanning the whole database; and iv)automatic repairing (or semi-automatic repairing) to significantly reduce manual operations. Analysis in theorem and thorough experimental tests will be conducted to evaluate the performance of the proposed methods. Such research work may provide new ideas for data quality management, make data much more useful, and therefore have great importance.
完整性约束管理是大数据质量管理的关键内容之一,在医疗卫生、企业信息管理等领域中意义重大。面向大数据的完整性约束管理模式已从"数据更新前检验约束条件"模式发展到"数据更新与约束检验相对独立"阶段,其难点在于如何在海量、分布、增量的数据库上高效管理近似唯一性约束、(条件)函数依赖等全局型(holistic)完整性约束,且支持自动检测与修复。本项目拟从四个方面进行探索,包括:1)设计面向集群的并行算法以提高系统的吞吐率;2)设计面向分布式网络环境的概要数据结构以降低网络传输开销;3)设计增量更新方法以避免每次监控时均要扫描全部数据集合;4)设计自动修复算法(或半自动修复算法)以避免过多采用人工干预。同时,采用理论分析、完整的实验测试来检验新方法与现有方法的差异性。相关研究成果预计将为大数据质量管理提供新的解决思路、显著提升数据的可用性,因而具有重要的理论与实践意义。
完整性约束管理是大数据质量管理的关键内容之一,在医疗卫生、企业信息管理等领域中意义重大。处理大数据场景之下的完整性约束问题所面临的主要难点是如何在海量、分布、增量的数据库上高效管理近似唯一性约束、(条件)函数依赖等全局型完整性约束,且支持自动检测与修复。本项目的研究内容包括:面向集群的并行算法设计、面向分布式网络环境的低网络传输开销算法设计、增量更新式的完整性约束检测方法设计、和低质数据自动修复算法设计,并采用理论分析、完整的实验测试来检验新方法与现有方法的差异性。课题组围绕预先制定的研究方案认真执行,取得了一批原创性的研究成果,具体包括:(1)共发表学术论文32篇,其中包括3篇CCF-A类论文和7篇CCF-B类论文,(2)在新加坡世界出版社出版英文专著1部;(3)获得授权专利1项;(4)设计完成四个原型系统,并且申请了四项软件著作权;(5)获得4项科研奖励;(6)培养了3名博士研究生和9名硕士研究生,其中多位同学获得国家奖学金。课题组严格按照基金委的要求使用经费。相关研究成果有助于位大数据质量管理提供新的解决思路,提升数据可用性,具有显著的理论意义和实践价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
肉苁蓉种子质量评价及药材初加工研究
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
Himawari-8/AHI红外光谱资料降水信号识别与反演初步应用研究
中外学术论文与期刊的宏观差距分析及改进建议
数据质量管理中实体识别关键技术的研究
云际存储环境下数据完整性审计关键技术研究
基于XML的关系数据发布中的完整性约束问题研究
外援存储中的数据完整性验证技术研究