Outlier knowledge discovery is a specific but significant research topic in data mining and knowledge discovery. It is not only confined to finding and reducing noisy data, but is more applied to discovering and revealing cryptical, rare but significant patterns that are distinct from major data. The anomalism of data is not resolved by part of their attributes, but is determined by coordination of the whole attributes. This project is dedicated to researching on problems of local outliers knowledge characterization and discovery in hign dimensional hybrid data by incorporating the theory of granular computing and the techniques of nonlinear feature extraction from the viewpoints of multi-granulation and multi-feature subspaces. A series of crucial problems are probed and solved including methods of granulation clustering, principles of efficient feature selection and criteria on outliers based on integrated group making-decision methods of multi-feature subspaces. The main focuses of this project include (1) Granulation of high dimensional hybrid data based on information communication between attributes and objects; (2) Measures of attribute significance and methods of minimal reduction of knowledge;(3) Stragetgy of nonlinear dimensionality reduction and characterization on outlier knowledge;and (4) Establishment of outlier subspaces and integrated group making-decision methods of multi-feature subspaces.
异常知识发现是数据挖掘和知识发现领域中一项特殊且具有重要意义的研究主题.它不仅仅局限于早期的消除噪声数据,更多地发现和揭示隐藏于数据集中的有意义但与大部分数据差异明显的稀有模式.数据的异常性不是由数据的某些属性决定,而是由其所有属性协同决定.本项目结合粒计算理论与非线性特征提取技术,从多粒度和多特征子空间角度致力于高维混合数据局部异常知识刻画和发现的关键问题研究,探索数据的粒化聚类方法、有效的特征选择机制、以及多特征子空间集成学习模型和异常知识评判准则等一系列关键问题的解决。主要研究内容包括:(1)高维混合数据属性与对象间信息交流的粒化方法;(2)属性的重要度度量及知识的最小约简方法;(3)高维混合数据的非线性降维策略及异常知识的刻画;以及(4)异常子空间的建立与多特征子空间的集成群决策方法.
随着人工智能技术的发展,数据规模呈现几何级数增长,对其中的异常数据或异常信息的分析和处理受到科研和技术人员的密切关注。本项目在粒计算框架下探讨异常数据的分析和处理问题。首先,基于粒计算理论,结合FCM和SVM建立了多种高维数据的粒化聚类模型,弥补距离度量高维数据相关性不恰当的问题,并基于聚类思想提出不完备数据恢复和数据离群度量方法。其次,提出了基于半监督PCM的异常特征子空间刻画方法,建立了单类支持向量机和SVDD的离群点检测方法,以及基于多粒度邻域融合群决策的无监督离群点挖掘技术。第三,提出了结合拉普拉斯特征映射和局部线性嵌入的高维数据特征提取方法,达到数据保类降维的目的。第四,基于信息论构建了语言值群决策特征评估策略和语言值信息系统的最小约简方法。最后,作为一类特殊的高维数据,将图像中的目标及边缘看着异常数据,基于粒计算思想和形态学连通性理论建立了图像目标定位方法。同时,分别基于GVF场的散度和像素的概率分布构建活动轮廓的能量泛函,解决了亮度不均匀图像的边缘检测难题。项目研究成果为智能数据分析提供了很好的基础和工具,丰富和完善了人工智能基础理论。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
地震作用下岩羊村滑坡稳定性与失稳机制研究
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比
基于粒计算的动态知识发现中若干关键问题研究
面向复杂数据的粒计算知识发现方法研究
多源直觉模糊数据集知识发现的粒计算方法研究
面向动态复杂数据的粒化模型与知识发现研究