With comprehensive consideration of the analysis and processing of massive data in big data environment, thorough theoretical and experimental researches were done in this study in search of new clustering methods. The researches focused on the key factors influencing clustering performance, such as cluster center, distance measure method, clustering number, similarity operator, time complexity etc. Theoretical innovation and optimization were performed by using the new swarm intelligence algorithms emerging in recent years. Its main content including: (1) The study on clustering stability of random selection and sample for super-scale data. (2) The center study of collaborative multi-swarm intelligent clustering. (3) The study of similarity measurement. (4) The strategy study of collaborative multi-swarm intelligent evolution. Through theoretical improvement and innovation, we implemented an effective solution to tackle with the key technology in building effective clustering algorithms. (5) Based on this, we also propose the clustering algorithm of collaborative multi-swarm intelligent with stage. Though the swift searching using collaborative multi-swarm intelligent clustering algorithm, we are able to determine and initialize the clustering centers; and through the collaborative multi-swarm intelligent evolution strategy, we are able to realize the distributed inner-clustering clustering.(6) Eventually, a systematic cooperative swarm intelligence clustering model that runs in big data was established. This study can enrich and expand the massive data -based theories and algorithms of data mining, and it is of practical meanings to the theoretical researches on intelligence and their clustering in the data mining field.
综合考虑大数据环境下海量数据的分析和处理需求,从理论和实验验证两方面进行深入研究。以影响聚类性能的关键因素:聚(簇)类中心、距离度量方法、相似度算子、聚类时间复杂度等作为研究重点,并结合近年不断涌现的新型群体智能算法,对其进行理论创新和改进。主要内容包括:(1)超大规模数据随机选取与抽样数据聚类稳定性研究;(2)多群体协同智能聚(簇)类中心研究;(3)相似度度量方法研究;(4)多群体协同智能进化策略研究。通过理论改进与创新,实现对构建高效聚类算法关键技术的有效解决方案;(5)在此基础上,提出阶段群体协同智能聚类算法。通过群体协同智能算法快速搜索,确定和初始化聚(簇)类中心;通过多群体协同智能进化策略,实现高效的簇内数据分布式聚类;(6)最终形成一个系统的、大数据环境下多群体协同智能聚类模型。丰富与发展基于海量数据的数据挖掘理论与算法,对智能理论研究及其在数据挖掘领域聚类研究具有重要意义。
群体协同智能算法模拟自然界各种生物的群体行为,利用群体个体之间的共同协助和信息交换实现寻优目的。聚类作为数据挖掘领域中的核心技术之一,由于算法自身复杂度的原因,存在着收敛速度慢、效率低等弊端。利用群体协同智能算法与聚类方法相融合,使数据间的内在特征通过“概率分布、导向趋势”的方式聚类,实现对具有相同或相似属性的数据进行深度挖掘,获取有价值知识,是大数据时代数据挖掘的重要手段和方法。. 大数据环境下影响聚类性能的关键因素主要有聚(簇) 类中心、相似度算子等因素。本项目执行期间,以聚(簇) 类中心、相似度算子、聚类时间复杂度等作为研究重点,针对群体协同智能算法以及聚类算法,进行理论改进研究与应用研究。提出一系列改进的群智能优化算法、改进的聚类算法,并将优化后群体智能算法应用于聚类、大数据聚类,有效提升聚类效果与精度。在地震数据、图像分割、复杂函数极值搜索、金融数据分析等领域,进行了仿真模拟与对比分析研究,都取得较好效果,具有很好应用价值。. 在群体智能算法方面,提出和引入趋势搜索机制、协同进化机制、知识记忆等策略,提出基于趋势搜索和协同进化的果蝇优化算法,基于知识记忆的果蝇优化算法等,基于柯西变异的果蝇优化等算法,大幅提高了算法的收敛速度和聚类效率。. 将引力理论、密度峰值聚类等内容引入近邻传播聚类算法,用于处理复杂结构数据时聚类结果不一致问题,提出基于引力理论的近邻传播聚类算法、基于密度峰值的半监督近邻传播聚类算法、基于结构相似性的自适应半监督近邻传播聚类等算法。引入网格划分的思想,将大数据集划分为小数据集,通过结构相似度矩阵来计算聚类中心的距离,在此基础上实现数据分割、初始聚类和全局聚类,进而提出基于大规模数据集的近邻传播聚类算法。. 将群体协同智能算法与密度峰值聚类算法相结合,提出基于知识学习的果蝇密度峰值聚类算法、布谷鸟优化的密度峰值快速搜索聚类算法、改进果蝇优化的密度峰值聚类算法。. 通过将半监督思想与群体智能优化算法相结合,提出基于半监督分层优化的近邻传播算法,基于稳定阈值的吸引子传播聚类算法等,并构造了基于趋势搜索和协同进化的近邻传播聚类模型;通过改进传统密度聚类算法需要人工设置截断距离和聚类中心的缺点,提出基于知识学习的果蝇密度峰值聚类算法,布谷鸟优化的密度峰值快速搜索聚类算法,改进果蝇优化的密度峰值聚类等算法。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
物联网中区块链技术的应用与挑战
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察
一种改进的多目标正余弦优化算法
大数据环境下协同商务智能构建中的关键技术研究
网络环境下基于群体智能方法的虚拟机协同平台研究
基于群体智能的数据清洗技术研究
大数据环境下基于多源数据协同的个性化服务关键技术研究