互联网技术日益发展的同时,也导致了网上不良信息的大量传播。本项目针对网络不良信息这一特定领域开展谱聚类分析技术研究。设计适于样本外展点的核主成分分析和独立分量分析的谱聚类选择模型,提出基于样本外扩展的多路谱聚类算法,有效解决新增样本点的聚类问题;针对大规模数据,提出基于无填充不完全Cholesky分解的谱聚类算法,解决谱聚类在大规模数据的相似矩阵存储和特征值求解上的难题;研究适合非稳定数据和多类别数据的在线谱聚类算法。对于提出的算法,我们进行算法的性能测试、与最新的相近算法的比较测试来验证算法的性能,并将算法应用于网络不良信息的聚类分析中,以控制和减少网络不良信息。
针对谱聚类在“可扩展性”、“计算复杂性”、“非稳定数据的在线聚类”上存在待解的基础理论问题,本项目开展谱聚类算法及应用研究。提出了映射函数可调整的样本外扩展谱聚类算法,采用基于局部几何的谱映射进行数据局部几何特征的提取,并将数据映射到特征子空间,生成显式映射函数,实现样本外扩展数据向特征子空间的映射。利用数据分布特点,提出了基于密度分区抽样的样本外扩展的谱聚类算法,提高了聚类精度和稳定性,实现了数据动态聚类,降低了聚类的时间复杂度和空间复杂度。为解决大规模数据聚类问题,提出了相似矩阵的稀疏化方法,快速计算矩阵特征值;可重新开始的Lanczos算法,以更好地控制精度以及具有更好的收敛性;以及基于无填充不完全Cholesky分解的并行谱聚类算法,提高了聚类速度。提出一种自适应数据处理的多层前馈神经网络完成非稳定数据的在线聚类,处理非静态环境下多类别数据的在线聚类。提出了一种基于统计流形的谱聚类算法,利用Dirichlet 混合多项式流形可与正半球流形建立同胚和等距关系的性质,通过拉回映射将正半球流形的测地距离映射为DCM 流形的测地距离,建立DCM 流形上距离度量,基于统计流形扩展核完成谱聚类。针对新增数据点的聚类问题,提出了一种增量谱聚类算法,采用一种高斯径向基函数以及参数调整方法度量聚类簇内部相似性,并以此提出了基于相似性度量的聚类簇调整算法,以保证谱聚类算法处理增量问题时的准确性。为解决高维数据聚类问题,提出了一种张量谱聚类算法,进行数据的高阶张量表示,利用数据的张量形式完成数据的谱聚类。对于提出的算法,我们与最新的相近算法进行比较测试来验证算法的性能,并将算法应用于网络不良信息、视频和图像等的聚类分析中,取得了良好的应用效果。
{{i.achievement_title}}
数据更新时间:2023-05-31
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
双吸离心泵压力脉动特性数值模拟及试验研究
空气电晕放电发展过程的特征发射光谱分析与放电识别
三级硅基填料的构筑及其对牙科复合树脂性能的影响
基于细胞/细胞外囊泡的药物递送系统研究进展
面向特定领域基于Ontology的跨语言信息检索技术研究
面向特定领域的知识图谱构建与应用关键技术研究
面向特定领域的文本语义分析关键技术
基于概念的面向特定领域的高性能文本检索