In the context of big data, imperfect data which is characterized mainly by inconsistency and incompleteness is now widespread and is rapidly growing. It is difficult (even impossible) to remove the inconsistency and the incompleteness using pre-processing such as data cleaning. But general methods are usually based on the assumption that data is perfect or handle data by separating the inconsistency and the incompleteness. This means that these methods are not useful for dealing with imperfect data. This project mainly proposes a self-adaptive granulation model for data classification and gives a set of analysis theory and efficient classification methods oriented to large scale incomplete inconsistent data. Firstly, self-adaptive granulation methods oriented to incomplete inconsistent data are studied, and then granule space is built by using granulation methods, and thus self-adaptive granulation model of data classification is proposed. Secondly, efficient algorithms for extracting classification rules are proposed, which include knowledge reduction and rule reduction, etc. Finally, optimization methods of classification rule set and construction methods of high-performance classifier are studied and then proposed under multidimensional measure. These results can provide efficient classification methods for large scale imperfect data. The objective of this project is to develop related theory, method and technology to deal directly with large scale imperfect data characterized by inconsistency and incompleteness, thus offering model support and a set of analysis theory and efficient methods for imperfect data classification.
在现今大数据时代,以不完备性和不一致性为主要特征的"低质"数据已广泛存在且增长迅猛。数据清洗等预处理技术难以(甚至不可能)消除数据的不完备性和不一致性。但一般方法通常假设数据是无误的或将不完备性和不一致性分割开来,这暴露了这些方法对"低质"数据处理能力的不足。本项目针对大规模不完备且不一致数据分类问题提出自适应粒化分类模型,给出分析理论和高效分类方法。首先研究面向不完备不一致决策系统的自适应粒化方法;然后据此构建粒空间,进而提出基于粒空间的自适应粒化分类模型;接着研究基于此模型的高效分类规则提取算法,包括知识约简和规则约简等;最后研究多维测度下分类规则集的优化方法和高性能分类器的构造方法,为"低质"数据提供高效的分类方法。项目总目标是面向分类任务开发能够直接处理以不完备性和不一致性为主要特征的"低质"数据的理论、方法和技术,为此类数据分类提供模型支撑以及一套有效的分析理论和高效的分类方法。
针对以不完备性和不一致性为主要特征的"低质"数据的自适应高效分类问题,本项目采用基于属性-值对块技术及基于聚类方法的自适应粒化方法,构建了面向不完备、不一致数据的自适应粒化模型,然后在此模型上通过多种方法研究高效数据约简、数据分类等问题,最后形成了一套面向以不完备不一致为主要特征的“低质”数据的自适应高效数据分类解决方案,较好地完成项目既定的研究目标。本项目从以下几方面展开研究工作:(1)采用属性-值对块技术对不完备、不一致数据进行粒化,构建了面向不完备、不一致数据的自适应粒化模型,此模型为快速属性约简、高效分类方法设计提供支撑。(2)基于相容关系下粒计算的原理和方法,提出由数据驱动的快速数据约简方法,为自适应数据分类奠定基础。(3)基于提出的自适应粒化模型,从多方面对数据约简、数据分类及其应用进行了深入的研究,并获得较好的成果。(4)基于聚类方法的(自适应)粒化及其应用研究。(5)集成提出的方法和现有的一些技术,开发了面向以不完备、不一致为主要特征的“低质”数据的知识发现原型系统。此系统是对提出理论、算法的检验,也是本课题后续研究和拓展已有研究成果的实验平台,用于检验所研究的模型和方法的各项性能指标,同时也是今后进一步研究的实验平台和成果应用转化的“中试基地”。在该项目支持下,一共发表论文21篇,其中SCI二区论文2篇,国际会议论文3篇,中文核心期刊15篇(含1篇已录用,待发表),出版与本课题相关教材一部。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
论大数据环境对情报学发展的影响
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制
多空间交互协同过滤推荐
面向大规模流数据的完备性挖掘方法研究
基于张量分析的不完备图像数据分类方法研究
面向失衡数据集的预测分类模型研究
面向大规模地震数据的高效可视化与可视分析方法研究