数据质量研究旨在自动定位和修复数据中的错误,提高数据可用性,对信息化社会的工农业生产、医疗卫生、信息服务、国防安全等各个领域 具有重要意义。国际学术界和工业界已将数据质量列为信息管理的首要问题。本项目基于已有工作基础,在统一的逻辑框架下研究数据质量的核心问题,即确保数据一致性、精确性、完全性、时效性和实体同一性,并研究这些问题的交互作用。对每一问题,提出质量模型、规则语言、公理系统和推理机制,以判别和分析数据中的错误、误差、遗缺、陈旧和冗余问题,并提出高效算法,自动挖掘保障数据质量的规则、辨识和修复数据错误。本项目还将以人寿保险为应用背景,在北京市政府支持下开发一个实用的数据质量原型系统,验证基础研究结果的正确性和有效性。
数据质量研究旨在自动定位和修复数据中的错误,提高数据可用性,对信息化社会的工家业生产、医疗卫生、信息服务、国防安全等各个领域具有重要意义,已被国际学术界和工业界列为信息管理的首要问题。本项目已完成项目的所有研究目标。(1) 深入研究了数据质量的核心问题,即数据一致性、精确性、完整性、时效性和实体同一性。对每个核心问题建立了理论基础,包括模型、度量、数据质量规则的约束语言、基础理论问题的复杂度分析及实用的检测与修复算法。(2) 首次研究了五个核心问题的交互作用,建立了理论基础和实用技术。(3) 首次提出了并发算法,用于处理大数据下的数据质量问题。(4) 课題组是最早开始研究图数据质量的团队之一,首次提出了图数据的完整性约束语言,包括函数依赖、主键和元组生成依赖等,建立了以上图数据完整性约束的基础理论问题的复杂度并设计了图数据上的不一致性错误检测和实体识别的并发可扩展算法。(5) 开发了数据质量管理系统,基于深圳市“织网工程”建立了政府人口、法人、房屋等基础信息资源数据质量保障应用示范项目。.课题取得的研究成果已达到并超出了课题任务要求,共出版国际专著1部,其中译版已在国内出版;在高水平国际期刊和国际会议发表学术论文共72篇,其中在国际一流期刊ACM Transactions on Database Systems、IEEE Transactions on Knowledge and Data Engineering、Theoretical Computer Sciences和一流国际会议SIGMOD、PODS、VLDB、ICDE、SIGIR、AAAI、WWW等发表学术论文共40篇,特邀论文11篇。申请专利19项, 其中中国专利7项、美国专利6项、英国专利3项、韩国专利3项,其中两项韩国专利已授权。开发的数据质量管理系统在深圳织网工程示范应用中累计清洗数据近100亿条数据,精度达到95%以上,助力深圳市获得了全国第一个也是目前唯一一个“国家政务信息共享示范城市”,和第一批“国家信息惠民示范城市”。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
肉苁蓉种子质量评价及药材初加工研究
中外学术论文与期刊的宏观差距分析及改进建议
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
数据质量管理中实体识别关键技术的研究
海量位置数据管理的基础理论与关键技术
数据质量管理中的完整性约束关键技术研究
众包数据库的基础理论与关键技术研究