项目研究主要内容:.(1)研究复杂关系网络聚类中能自动识别真实簇总数和具有最优网络簇划分的谱聚类算法;(2)构建属性数据与关系数据的统一为一种描述方式的映射方法,进而研究两类数据的相关性问题;(3)研究关系网络下k-means、k-prototypes、FCM等经典聚类算法的改进方法,从而为传统聚类算法过渡到关系数据约束下的聚类提供理论依据;(4)将聚类作为一类优化问题,研究基于关系的目标(或条件)约束的数据聚类问题;(5)在已有的研究基础上,将最大完全图和点领域理论用于研究相容关系的聚类问题,并用模糊等价关系、偏序关系等实体对象间的特殊关系研究聚类问题;(6)将关系约束下的聚类问题的研究成果引入web服务中的文本聚类问题的研究中,为本项目的拓展应用研究提供理论和方法的依据。. 由于将两类数据综合考虑的研究基本上还只是处于起步阶段,因而,本项目的研究一定程度上具有多方面的开创性。
聚类分析是数据分析与处理的一个极为重要的工具,在统计学、机器学习、知识工程等领域有着广泛的应用。本项目对不同关系约束下的聚类及相关问题进行研究。首先,针对数据间的相关性,给出了相容关系的解释,并对相容关系下的数据集的聚类问题从理论上分析和证明了其算法的复杂性问题;针对早期我们提出的关系聚类算法Com-clustering的不足,通过引入“链接”和“剪枝”的技术,得到了仅需扫描一次数据集的新算法,大大提高了原算法的效率;分别利用凸空间划分和球空间逼近的思想取代pNCompClus算法中的点领域理论,实验表明新算法可以得到更合理的聚类效果和更高的聚类精度;将关系的目标约束的聚类问题解释为一类类群的寻优问题,并通过引入粒子间新的相似度的概念来度量粒子群的多样性程度,用自适应变化阈值来控制调整粒子群算法的收敛速度等手段得到了一种PSO算法的改进算法,实验和性能分析表明,新算法可以有效提高算法的全局搜索能力,并有效回避收敛早熟问题;从对象间的模糊隶属关系角度对数据的聚类问题进行研究,基于增量式聚类思想,对FCM算法进行改进,通过数据点的加权策略,同时引入可能性聚类的思想,得到一新的模糊聚类算法,在大规模数据集上的聚类具有明显优于传统方法的效果。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
跨社交网络用户对齐技术综述
城市轨道交通车站火灾情况下客流疏散能力评价
基于FTA-BN模型的页岩气井口装置失效概率分析
基于图卷积网络的归纳式微博谣言检测新方法
基于约束的高维数据聚类
数据聚类问题中的一类张量优化方法研究
大数据环境下的空间聚类方法研究
多粒度视角下大规模数据聚类算法研究