In this knowledge economy era, the automatic cleaning of “dirty” data was recognized as one of the most significant and tough research problems among the data engineering community. Although plenty of effort has been paid to this area, most of them cannot reach a satisfied performance due to the lack of enough information and knowledge. Given this background, we propose to do data cleaning to dirty textual data in databases with the help of the rich information and knowledge on the World Wide Web. In particular, our research in this proposal will include the following several aspects: (1) Web-based error textual data identification and cleaning;(2) Web-based missing textual data imputation; (3) Web-based inconsistent textual data integration; and (4) Particular information extraction techniques for Web-based textual data cleaning. The outcome of our research will greatly reduce or eventually solve the erroneous, incompleteness and inconsistency problems of the dirty textual data in many databases. Our work will make significant contributions to the data cleaning research area by laying the foundation and providing the key technical support to web-based data quality research.
在当今的知识经济时代,如何实现大量“脏”数据的自动清洗被公认为是数据工程领域最重要且最艰巨的课题之一。以往提出的数据清洗方法往往由于缺乏足够的信息支撑而对很多脏数据束手无策。本项目提出借助互联网中的海量信息对数据库中的文本类型脏数据进行自动清洗。项目的重点研究将包括:(1)研究借助互联网海量信息自动发现与修正数据库中的错误文本数据的技术;(2)研究从互联网中自动获取数据库中的缺失文本数据的技术;(3)基于互联网对数据库中混杂不清的文本数据进行自动统一和正确关联的技术;以及(4)服务于基于互联网的数据清洗研究的信息抽取技术。本项目的研究成果将大大缓解甚至消除很多实际数据库中文本类型脏数据的错误,缺失和混杂不清问题。本项目的研究为数据清洗领域做出新的积极探索,将为基于互联网的数据质量研究奠定理论基础并提供关键技术支持。
青年自然科学基金项目“基于互联网海量信息的数据库文本类型数据清洗研究”主要研究了如何借助互联网中的海量信息对数据库中的文本类型脏数据进行自动清洗的技术。其研究内容包括:(1)研究借助互联网海量信息自动发现与修正数据库中的错误文本数据的技术;(2)研究从互联网中自动获取数据库中的缺失文本数据的技术;(3)基于互联网对数据库中混杂不清的文本数据进行自动统一和正确关联的技术;以及(4)服务于基于互联网的数据清洗研究的信息抽取技术。在三年的项目执行时间里,本项目圆满完成既定目标,取得了较为突出的研究成果。具体来说,我们提出了基于互联网大数据对单一数据库中的脏数据进行自动清洗和多个数据库中的数据进行自动数据融合的框架和系统,给出了从互联网大数据中获取所需信息的方法和途径,解决了高效率高精确度的数据纠错,数据修复和数据融合的问题。截止到目前,本项目共发表和录用论文34篇,其中CCF A类期刊和会议论文4篇,CCF B类期刊和会议论文16篇,CCF C类期刊和会议论文11篇,其它SCI期刊、会议及中文核心期刊论文3篇。获得相关专利受理5项,软著授权3项。总而言之,在本项目的资助下,课题组超额完成了预定的研究任务,取得了较好的研究成果。此外,一系列实验证明,本项目提出的数据清洗技术可以切实有效地提高各领域数据集的数据质量,并且能辅助我们对多个数据源进行高效准确的数据融合。本项目的科研成果可以很好地应用于金融、教育、政务等各种领域数据的清洗和融合应用中,充分体现本项目研究成果的应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于LS-SVM香梨可溶性糖的近红外光谱快速检测
智能煤矿建设路线与工程实践
信息熵-保真度联合度量函数的单幅图像去雾方法
高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析
城市生活垃圾热值的特征变量选择方法及预测建模
面向海量信息管理的中文文本数据库关键技术研究
基于图数据库理论的海量RDF数据存储和查询方法研究
基于文本模式的海量电能质量数据自动分析技术研究
互联网上基于概念分析的文本信息监控技术研究