With the popularity of smartphones and wearable devices, distributed Peer-to-Peer (P2P) network applications are gradually changing the way of human life. The complex characteristics of network data, such as high dimension, nonlinearity, heterogeneity, and uncertainty, lead to the ineffectiveness of the existing clustering algorithms to deal with. On the basis of overcoming the defects of fully-connected network topology, this project conducts research on clustering analysis of complex data in distributed P2P network. For high dimensional data, distributed subspace collaborative clustering algorithm is proposed, where the information entropy regularization is employed to optimize the feature weights of data to reveal significant subspaces which represent different clusters. For nonlinear and heterogeneous data, the distributed multi-kernel collaborative clustering algorithm is presented, in which low-order random features are utilized to explore high dimensional unknown kernel spaces and realize the weighted combination and optimization of the multi-kernel. For uncertain data, the distributed uncertain collaborative clustering algorithm is designed, in which the representation of uncertain data is specified and the determination of uncertain distance measurement is achieved. The data collaborative communication strategy is defined to ensure the synchronization of the clustering process on distributed network nodes and the convergence of distributed collaborative clustering algorithms. The results of this project are theoretical contributions to the research about automatic knowledge discovery in the distributed P2P network, and they also have great potential in real applications.
随着智能手机、可穿戴式设备的普及,分布式点对点网络应用正逐步改变着人类的生活方式。网络数据所呈现的高维、非线性、异构、不确定等复杂特性,使得现有聚类分析算法无法有效处理。本项目在突破全连接网络拓扑结构算法设计缺陷的基础上,围绕分布式点对点网络环境下复杂数据聚类分析展开研究:面向网络数据的高维特性,提出分布式子空间协同聚类算法,通过信息熵正则化优化数据特征权重,揭示体现不同聚类的重要子空间结构;面向网络数据的非线性异构特性,提出分布式多核协同聚类算法,通过低阶随机特征映射寻找数据的高维未知核空间,实现多核加权组合及其优化;面向网络数据的不确定特性,提出分布式不确定协同聚类算法,定义不确定性数据表示方法,实现不确定距离测度的确定化;设计数据协同通讯策略,确保分布式节点间聚类的同步与算法收敛。项目研究成果对于分布式点对点网络环境下数据的自动知识发现具有重要的理论意义和广泛的应用价值。
分布式协同聚类为解决分布式点对点网络环境下大数据聚类问题提供了一种有效解决途径。然而,现有方法还存在着诸多问题:①基于全连接网络拓扑结构的聚类算法设计存在局限;②缺乏对网络数据的高维、非线性、异构、不确定等复杂问题的有效处理手段;③缺少有效的分布式节点间的数据协同通讯策略。本项目围绕这些问题展开研究:针对传统方法中受限于网络拓扑结构必须为全连接的问题,提出了一种新的分布式协同聚类方法,仅利用网络相邻节点之间的数据协同最终实现一致性约束的全局聚类,并面向网络数据所呈现的高维、非线性、异构、不确定等特性设计相应的解决方案。面向网络数据的高维特性,提出了分布式子空间协同聚类算法,通过信息熵正则化优化数据特征权重,揭示体现不同聚类的重要子空间结构;面向网络数据的非线性异构特性,提出了分布式多核协同聚类算法,通过低阶随机特征映射寻找数据的高维未知核空间,并实现了多核加权组合及其优化;面向网络数据的不确定特性,提出了分布式不确定协同聚类算法,定义了新的不确定性数据表示方法,并实现不确定距离测度的确定化;设计了数据协同通讯策略,确保了分布式节点间聚类的同步与算法收敛。所提新方法的性能在理论及数据测试上都得到了验证。研究期间共发表论文17篇,其中,中科院一区论文5篇,申请发明专利8项,相关研究引起国内外同行的关注。研究成果已部分应用于城市交通出行预测、网络舆情分析、网络用户画像等领域。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
跨社交网络用户对齐技术综述
城市轨道交通车站火灾情况下客流疏散能力评价
基于FTA-BN模型的页岩气井口装置失效概率分析
F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度
面向复杂多视角数据的层次聚类研究
面向地理标签数据的高效聚类算法研究
面向复杂RFID数据采集任务的分布式协同方法研究
面向社会媒体数据的子空间聚类算法研究