基于群体智能的数据清洗技术研究

基本信息
批准号:61902017
项目类别:青年科学基金项目
资助金额:28.00
负责人:郝爽
学科分类:
依托单位:北京交通大学
批准年份:2019
结题年份:2022
起止时间:2020-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:
关键词:
质量控制数据清洗群体智能可扩展性成本控制
结项摘要

Data cleaning, which aims to detect and repair the dirty data, has played an important role in data analysis and data management. Unfortunately, automatic data cleaning methods are not keeping up with the changing data ecosystem, and user-guided solutions lead to lots of user involvement. Nowadays, the development of crowd intelligence brings new chances for data cleaning. Crowd intelligence is a hybrid human-machine intelligence, which combines massive human intelligence and machine’s computing and analysis capabilities to accomplish complex tasks. Therefore, we focus on data cleaning with crowd intelligence in this project to overcome the deficiencies of existing methods. The specific research content contains: (1) we design a basic framework for crowd intelligence based data cleaning, and study the problem of quality control in crowd intelligence to improve the accuracy of data cleaning; (2) we study cost control solutions based on deep learning and how to label the training data through active learning to minimize human and money cost in the data cleaning process; (3) we study the problem of holistic data cleaning with transfer learning, including holistic cleaning of multiple datasets with similar content and execution of multiple cleaning tasks to resolve the scalability problem of crowd intelligence based data cleaning.

数据清洗旨在识别和纠正数据中的错误,它是数据分析与管理过程中的重要环节。但目前自动的数据清洗方案无法适应多变的数据生态系统,而用户的引入导致大量的人工投入。当下,群体智能技术的发展为数据清洗的研究工作注入了新的活力。群体智能是人机协作的混合智能,通过融合海量的人类智能和机器的计算分析能力来完成较为复杂的任务。本项目拟研究基于群体智能的数据清洗技术,以弥补现有方法的问题和不足。本项目具体的研究内容包括:(1)设计基于群体智能的数据清洗的基本框架,研究群体智能中的质量控制问题以提高数据清洗的准确率;(2)研究基于深度学习的成本控制方案,并通过主动学习的方式标注训练数据,降低数据清洗过程中的人工投入和金钱开销;(3)研究基于迁移学习的数据统一清洗问题,包括数据内容相似的多个数据集的统一清洗和多种清洗任务的统一执行,解决基于群体智能的数据清洗的可扩展性问题。

项目摘要

本项目针对传统的数据清洗算法清洗质量不高、清洗效率低和人工投入较大的问题,提出研究基于群体智能的数据清洗技术,通过融合人的复杂认知推理能力和机器的海量计算分析能力来提升数据清洗的效果。研究目标是创建一套基于群体智能的数据清洗的理论体系和关键技术方法,包括设计基于群体智能的数据清洗的基本框架,并在质量控制、成本控制和可扩展性问题上展开研究。目前已完成了预定的目标,并取得了以下三方面的成果:(1)构建了基于群体智能的数据清洗技术的基本框架和优化机制,通过规则的逻辑推理和机器学习模型的构建降低众包成本,通过基于群智工人专长的任务分配机制进行质量控制,通过领域自适应技术完成数据内容相似的多个数据集的统一清洗;(2)研究了基于实体显著性和实体域的数据摘要生成和基于鲁棒损失函数的鲁棒模型构建的机制,解决了应用群体智能技术进行数据清洗的过程中的数据展示问题和基于模型进行成本控制时的标签噪声问题;(3)进行了基于群体智能的噪声检测技术和数据摘要生成技术的示范展示,推动项目成果转化。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

DOI:
发表时间:2020
3

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

DOI:
发表时间:2018
4

肉苁蓉种子质量评价及药材初加工研究

肉苁蓉种子质量评价及药材初加工研究

DOI:10.11842/wst.2017.02.019
发表时间:2017
5

物联网中区块链技术的应用与挑战

物联网中区块链技术的应用与挑战

DOI:10.3969/j.issn.0255-8297.2020.01.002
发表时间:2020

相似国自然基金

1

基于众包的数据清洗关键技术研究

批准号:61472198
批准年份:2014
负责人:冯建华
学科分类:F0202
资助金额:86.00
项目类别:面上项目
2

基于多群体融合与数据驱动的群体智能算法研究

批准号:61673193
批准年份:2016
负责人:宋威
学科分类:F0307
资助金额:59.00
项目类别:面上项目
3

基于用户反馈的不确定性数据清洗技术研究

批准号:61003086
批准年份:2010
负责人:陈晋川
学科分类:F0202
资助金额:20.00
项目类别:青年科学基金项目
4

大数据环境下基于群体协同智能聚类的关键技术研究

批准号:61472049
批准年份:2014
负责人:韩旭明
学科分类:F06
资助金额:80.00
项目类别:面上项目