In many areas, including natural sciences and engineering technology, many databases are plaugued by the unavoidable problem of data incompleteness due to the imperfect data acquisition, incorrect data comprehension, and other factors.And the missing attribute values make it difficult for analysts to realize data analysis, and would hinder the decision analysis, process control. As a result, the problem of clustering incomplete datasets has become one of the research focuses in the field of pattern recognition. Aiming at this problem, we plan to investigate the following questions: 1) Propose three interval represionation of missing attribute values by using the information of incomplete datasets sufficiently, thus, the analysis and imputation of missing attribute values can be limited to appropriate ranges, and the accuracy can be enhanced; 2) Take the interval representation of missing attribute values as an additional clustering factor, investigate the effective approaches for clustering incomplete data; 3) Apply the proposed approaches to segmentation of gray images with corrupted blocks, and cimbine with the image inpainting approaches such as total variation model, realize the segmentation of images with corrupted blocks by considering both clustering analysis and image inpaiting. The research of the project will have a positive influnce on the cognition and comprehension of incomplete data in the field of pattern recognition, and will enhance its application in segmentation of images with corrupted blocks. Therefore, the research of the project has some theoretical and practical significance.
在自然科学和工程技术的很多领域中,由于获取数据的限制及对数据的理解等因素,信息的不完整问题普遍存在,影响了在此基础上进行的数据分析及理解,为后续的决策分析、过程控制等造成阻碍。因此,不完备数据模糊聚类问题已成为模式识别领域的研究热点之一。针对这一问题,本项目拟围绕如下内容进行研究:(1)充分利用不完备数据集信息,给出缺失属性值的三种区间型描述,将其分析及处理限定在属性空间的合理范围内,以提高其估计的准确度;(2)将缺失属性值的区间型描述也作为聚类因素,研究不完备数据模糊聚类更为有效的求解方案;(3)将所提算法应用于缺损灰度图像的分割问题,并将整体变分模型等图像修复方法融入聚类,实现缺损图像在聚类及图像修复双重优化准则下的分割。本项目的完成将对模式识别领域的不完备数据认知及理解产生积极影响,同时有助于该理论在缺损图像分割等领域的实际应用,具有理论和应用的双重价值。
数据不完备问题广泛存在于自然科学及工程等诸多领域,如何有效利用不完备信息,从中发现并分析数据隐含的知识及规律用于决策、过程控制及信息管理等方面,已成为模式识别领域的一个热点研究课题。从缺失属性值的不确定性角度出发,项目以缺失属性值的区间型描述为基础,对不完备数据的聚类分析及应用展开研究。取得的研究成果包括:(1)充分利用不完备数据集蕴含的聚类中心邻域信息、样本近邻信息及近邻样本属性值分布信息,给出了缺失属性值的中心邻域描述、伪近邻区间描述及最近邻区间内的概率取值模型,将缺失属性值的分析及处理限定在属性空间的合理范围内,为提高其估算准确度提供基础;(2)针对不完备数据集特点,研究了伪近邻、皮尔森相关系数等相似性度量并应用于不完备数据集聚类问题,提出了基于三角不等距离的不完备数据区间型距离度量方法,这一区间型距离更适于描述聚类问题中不完备数据与聚类中心间的不确定距离;(3)将所提多种缺失属性值的区间型描述也作为聚类因素,根据不同区间型描述方法特点,研究了基于梯度算法、遗传算法、属性加权、引入子类分散度、类边缘数据重新划分等不完备数据模糊聚类的有效求解方案,所提算法在聚类错分数、缺失属性值填补等方面能够取得满意的聚类结果;(4)研究了全变差模型及P-Laplace图像修复模型相结合的混合图像修复算法,为进一步将图像修复方法融入聚类,实现缺损图像在聚类及图像修复双重优化准则下的分割研究提供基础。通过本项目的研究,进一步提高了不完备数据处理中对缺失属性值估计的准确度及聚类精度,并把相关方法应用到缺损灰度图像分割等领域中。上述研究能够对模式识别领域的不完备数据认知及理解产生积极的促进作用,同时能够为该理论在缺损图像分割等领域的实际应用提供有益参考。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
低轨卫星通信信道分配策略
青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化
城市轨道交通车站火灾情况下客流疏散能力评价
再生水系统中VBNC(Viable but nonculturable)病原菌复活机制与控制方法研究
区间值时序数据挖掘中聚类与预测的研究
基于多目标进化的区间值模糊聚类图像分割
基于区间值模糊软集的完备决策系统模型研究
基于众数的函数型数据聚类方法