基于相似紧邻的缺失数据填补关键技术研究

基本信息
批准号:61572272
项目类别:面上项目
资助金额:67.00
负责人:宋韶旭
学科分类:
依托单位:清华大学
批准年份:2015
结题年份:2019
起止时间:2016-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:刘英博,龙明盛,金涛,朱笑尘,张奥千,曹越,朱晗,张晓泉
关键词:
数据清洗相似规则缺失数据相似紧邻数据填补
结项摘要

Incomplete information often occurs along with incomplete entry, inaccurate extraction or heterogeneous schemas. Applications built upon such data with missing information are not reliable. As one of the fundamental aspects in data quality, missing data imputation has been highlighted in both academy and industry. The idea of data imputation is to fill the missing data with the values of its neighbors who share the same information. Unfortunately, owing to data sparsity, the number of neighbors (identified w.r.t. value equality) is rather limited, especially in the presence of data values with variances. In this proposal, we argue to extensively enrich similarity neighbors by similarity rules with tolerance to small variations. More fills can thus be acquired that the aforesaid equality neighbors fail to reveal. To the best of our knowledge, this is the first study on imputing missing data by similarity neighbors. With both theoretical and practical concerns, we propose to study the problem of similarity neighbor-based data imputation in the following aspects: (1) the hardness analysis on solving and approximating the problem, (2) exact algorithms for tackling the problem, and (3) efficient approximation with performance guarantees. We believe that our proposed theoretical results and effective methods can be applied in various applications such as the cleaning and management of personal information on the Web, or event log in enterprise systems.

由于不完整输入、数据抽取错误、异质数据格式等众多原因,数据缺失的情况非常普遍,严重影响各种应用的可靠性。缺失数据填补作为数据质量管理的基础问题之一,引起学术界和工业界广泛关注。现有的数据填补方法受数据稀疏性和多样性所限,紧邻缺乏,导致大量空值无法被填补。本项目首次提出基于相似紧邻的填补策略,即利用数据之间的相似关系(而非传统的相等关系),识别更多的紧邻,从而增加缺失数据填补的机会。基于相似紧邻的缺失数据填补在国际上是首次被提出,面临许多新的挑战,亟待解决。本项目拟从理论和实践的角度,对相似紧邻填补问题进行如下研究:(1) 相似紧邻填补问题的复杂度、可近似度等理论基础分析;(2) 基于相似紧邻的最优填补计算方法;(3) 高效率近似填补算法及其近似比率保证等。最终形成一套完整的相似紧邻填补理论成果和高效率填补计算方法,并应用于互联网个人信息、企业日志信息的清理与管理等社会生活和生产的重要领域。

项目摘要

由于不完整输入、数据抽取错误、异质数据格式等众多原因,数据缺失的情况非常普遍,严重影响各种应用的可靠性。缺失数据填补作为数据质量管理的基础问题之一,引起学术界和工业界广泛关注,被认为是影响数据质量的一个重要问题。数据填补的常用方法是利用和不完整元组相似的其他元组中含有的相似信息来填补缺失数据。这些邻居通常可以通过编辑规则或者相似关系来确定。然而现有的数据填补方法受数据稀疏性和多样性所限,紧邻缺乏,导致大量空值无法被填补。为了应对这一问题,得到更丰富的填补候选值以更好地填补缺失数据,本项目首次提出基于相似紧邻的填补策略,即利用数据之间的相似关系(而非传统的相等关系),识别更多的紧邻,从而增加缺失数据填补的机会。本项目在相似紧邻度量、紧邻约束规则修复、相似紧邻识别、相似紧邻数据填补修复等几个方面都取得了重要进展,同时对事件类型、关系类型、时序类型、图谱类型等多种类型数据的填补修复展开如下研究:(1) 相似紧邻填补问题的复杂度、可近似度等理论基础分析;(2) 基于相似紧邻的最优填补计算方法;(3) 高效率近似填补算法及其近似比率保证和时间复杂度分析等。最终形成一整套完整的相似紧邻填补理论成果和高效率填补计算方法,并应用于金风科技有限公司、上海地铁、石家庄天远科技有限公司等多家企业,解决风机数据、地铁数据和车辆运载数据中存在的缺失信息问题。综上所述,本项目提出的基于相似紧邻的缺失数据填补技术能够应对数据缺失问题带来的损失和危害,服务于社会实际生产生活的多个领域,不仅具有学术研究价值更带来了重要的实际应用价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021
3

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021
4

混采地震数据高效高精度分离处理方法研究进展

混采地震数据高效高精度分离处理方法研究进展

DOI:10.3969/j.issn.1000-1441.2020.05.004
发表时间:2020
5

国际比较视野下我国开放政府数据的现状、问题与对策

国际比较视野下我国开放政府数据的现状、问题与对策

DOI:
发表时间:2016

宋韶旭的其他基金

批准号:61202008
批准年份:2012
资助金额:25.00
项目类别:青年科学基金项目

相似国自然基金

1

基因表达谱缺失数据的填补融合方法及策略研究

批准号:81273178
批准年份:2012
负责人:伍亚舟
学科分类:H3011
资助金额:55.00
项目类别:面上项目
2

基于周期信息的时间序列缺失值填补方法研究

批准号:30872182
批准年份:2008
负责人:张晋昕
学科分类:H3011
资助金额:30.00
项目类别:面上项目
3

面向大数据的相似连接操作关键技术研究

批准号:61402329
批准年份:2014
负责人:荣垂田
学科分类:F0202
资助金额:25.00
项目类别:青年科学基金项目
4

高维大数据相似性连接查询关键技术研究

批准号:61602231
批准年份:2016
负责人:马友忠
学科分类:F0202
资助金额:20.00
项目类别:青年科学基金项目