In the study of the origin of comets, the migration of birds, the analysis of typhoon trends and other practical problems, the direction or angle of the data is often worth more than the size of the data. The data, so that its "direction" is more important than its magnitude, and is often normalized into the unit norm vector, is often referred to as "directional data". This project devoted to developing a nonparametric directional probabilistic distribution mixture model, in order to cluster high-dimensional directional data in real-world problems. Firstly, we construct the nonparametric directional mixture model based on different directional probability distributions and the framework of nonparametric probability model; Then, based on the proposed model, the feature selection and outlier detection techniques are added to improve the clustering performance and the robustness against noise; In addition, the effective model learning method is developed to accurately calculate the model parameters and determine model complexity; Next, the clustering analysis method of nonparametric directional mixture model is developed for handling stream data and large-scale directional data; Finally, the effectiveness of the developed models and the corresponding learning algorithms is evaluated through the simulated data and the real-world applications that contain directional data. This research may progress mixture modeling and h nonparametric models for directional data clustering. It may also facilitate and promote the development and applications of directional clustering analysis in novel fields.
在研究彗星的起源、了解鸟类的迁移、分析台风的走向等多种实际问题中,数据的方向或角度往往比其大小更值得研究。这类“方向”比“大小”更重要且常被归一化为单位范数的向量数据通常被称为“方向数据”。本项目的主要目的是开发基于非参数方向概率分布的混合模型,用以解决含有高维方向数据的实际聚类问题。首先,利用不同特性的方向概率分布和非参数概率模型的框架来构造非参数方向混合模型;然后,在所提出模型的基础上加入特征选择和孤立点检测技术以提高聚类性能以及鲁棒性;此外,开发有效的模型学习算法用以同时准确地估算模型参数和模型复杂度;接下来,针对流数据和大规模方向数据研究有效的混合模型聚类分析方法;最后,通过模拟数据以及含有方向数据的实际应用来验证所开发的模型及算法的有效性。本研究工作的开展一方面能对基于非参数方向混合模型的聚类分析方法的研究起到推动作用,同时也能够促进方向数据的聚类分析在新领域的应用与发展。
在生物、地理、天文、气象、医学等领域中,许多问题往往更注重对数据的方向和角度的研究,例如研究彗星的起源、了解鸟类的迁移、分析台风的走向等。这类“方向”比“大小”更为重要且常被归一化为单位范数的向量数据,通常被称为“方向数据”。本项目旨在根据方向概率分布(例如von Mises-Fisher、Watson分布等)的特点,构建其合适的非参数概率混合模型来进行高维方向数据的聚类分析。. 本项目的具体执行情况如下:1)由于贝叶斯非参数模型可以自适应调节模型复杂度,使其在无监督聚类中有着较高的灵活性,项目组开发了多种基于非参数概率分布混合模型的高维方向数据聚类算法,用以解决含有高维方向数据的实际聚类问题;2)由于高维数据特征中通常存在无效的不相关特征或噪声,为了在模型训练阶段可以剔除这些无效特征,项目组研究了如何在所提出的非参数模型框架中融入无监督特征选择的方法,从而能够系统的同时进行模型参数的估算和特征的选取;3)由于在很多实际应用中数据规模通常较大,或者数据以一个流动的方式持续被获取,项目组提出了针对大规模方向数据和流数据的混合模型聚类分析方法;4)对于所开发的非参数方向概率混合模型,项目组提出了有效的模型学习算法(如变分贝叶斯推断等)用以准确计算模型参数、评估模型复杂度和特征重要度,并将其应用于多种含有方向数据的实际聚类问题(如基因表达序列数据分析、深度图像分割、fMRI数据分析等)。此外,项目组还针对不同类型的数据(如序列数据等)提出了多种基于不同概率分布的概率混合模型,并通过实验证明了所提出模型在实际应用中的有效性(如人体行为识别、新闻主题检测和跟踪、垃圾邮件分类等)。. 由于方向数据在各行业的应用越来越广泛,研究开发有效的基于方向概率分布的混合模型和其相关的模型学习算法是方向数据聚类分析的一个重要研究课题。本项目的研究工作能对方向数据的分析研究起到积极推动作用,从而促进方向数据的聚类分析在更多新领域得到应用与发展。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
基于SSVEP 直接脑控机器人方向和速度研究
低轨卫星通信信道分配策略
基于分层贝叶斯非参数模型的聚类方法
基于RGB-D视频的概率深度聚类模型
基于概率图模型的数据降维算法研究
时间序列数据挖掘中的聚类模型与算法研究