基于分层贝叶斯非参数模型的聚类方法

基本信息
批准号:61502183
项目类别:青年科学基金项目
资助金额:19.00
负责人:范文涛
学科分类:
依托单位:华侨大学
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:杜吉祥,翟传敏,陈叶旺,郑德鹏,李璐,邹辉,张建
关键词:
在线学习聚类算法无监督学习非参数模型混合模型
结项摘要

The technological developments of the last few decades have increased the volume of data daily. Develop an efficient clustering approach, which can discover homogenous groups of data in a given dataset, is an extremely critical issue in many fields. This project is devoted to developing a novel clustering approach based on Hierarchical Bayesian Nonparametric (HBN) models. Our goal is to provide a possible solution based on feature selection schemes and machine learning techniques to tackle real-world clustering problems, especially for those involving real-time and large-scale datasets. In this project, we first construct the HBN model based on hierarchical Dirichlet process. We then integrate feature selection techniques with the HBN model to form a unified framework, in order to solve clustering problems that containing high-dimensional data. Next, we develop appropriate learning approaches to learn the proposed model by estimating model parameters and model complexity simultaneously and effectively. Moreover, an online learning algorithm will also be proposed for learning the model containing streaming data or large-scale dataset. Finally, we apply the proposed HBN model on several challenging real-world applications, such as image categorization, video background modeling and foreground subtraction, text document clustering, etc. This project may progress mixture modeling and HBN models for data clustering. It may also facilitate and promote the application and development of clustering analysis in novel fields.

随着数据量的日益增多,如何能有效的把所获得的数据按照其内在相似性进行分类是目前许多领域中都急需解决的问题。本项目根据分层贝叶斯非参数模型的特点,利用特征选择技术与机器学习算法,研究新型的并适用于实时数据及大规模数据的聚类算法,使其能够为多种实际聚类问题提供良好的解决方案。本项目首先利用分层Dirichllet过程构建合适的分层贝叶斯非参数模型;然后构建一个融合了特征选择方法和所提出模型于一体的框架结构,以解决高维数据聚类问题;针对所提出的模型开发有效的模型学习算法,并针对流数据和大规模数据提出在线学习算法,用以同时估计模型参数和模型复杂度;最后,将所提出的模型有效应用在某些实际聚类问题当中(如图像自动分类、视频背景建模与前景提取、文本自动分类等)。本项目的开展一方面能对基于混合模型和分层贝叶斯非参数模型的聚类分析方法的研究起到推动作用,另一方面也能够促进聚类分析在新领域的应用与发展。

项目摘要

随着数据量的日益增多,如何能有效的把所获得的数据按照其内在相似性进行分类是目前许多领域中都急需解决的问题。本项目旨在开发基于新的概率分布混合模型的聚类分析方法从而能够为多种实际聚类问题提供良好的解决方案。.在基于混合模型的聚类方法中,选择一个适当的概率分布作为基础分布来描述数据对聚类性能有着至关重要的影响。根据实际应用的不同,其相关数据往往具有不同的复杂特性,而不同类型的数据则需要采用恰当的概率分布混合模型来进行聚类分析。在本项目中,项目组分别构建了基于Dirichlet、广义Dirichlet、逆Dirichlet、Beta-Liouville和逆Beta-Liouville分布的混合模型(包括参数模型、贝叶斯非参数模型和分层贝叶斯非参数模型)用来做聚类分析。.由于在高维数据中存在大量的冗余特征,从而容易导致模型复杂高,造成分析特征、训练模型的时间长、聚类效率下降等问题。因此,为了能够剔除不相关的冗余特征,并能够更加有效地处理多维数据以提高建模能力和聚类结果,我们提出了无监督特征选择方法,并将其和在前一阶段提出的混合模型整合于同一模型框架中,从而能够系统地同时进行模型参数的估算和特征的选取。.由于传统的混合模型学习算法较适用于简单模型的训练和学习,且还需要增加额外的模型选择步骤来计算模型复杂度,另外常会出现“过拟合”(over-fitting)等问题。因此,当构建好混合模型后,需要设计开发有效的模型学习方法。在本项目中,针对不同的混合模型,项目组提出了多种基于变分推导(Variational Inference)和期望传播(Expectation Propagation)算法的模型学习方法,从而能够准确地估算模型的参数和复杂度。项目组还成功地提出了基于KD树结构的加速变分推导算法来有效学习不同的混合模型,使其能够更有效地处理大规模数据的聚类问题。.本项目所提出的基于混合模型的聚类分析方法被有效地应用于多种实际聚类问题当中,如:三维物体识别、文本文档聚类、基因表达数据分类、人体行为识别、人脸表情识别、视频分割、图像分割等。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
4

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
5

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019

范文涛的其他基金

批准号:68774038
批准年份:1987
资助金额:1.50
项目类别:面上项目
批准号:70271076
批准年份:2002
资助金额:15.00
项目类别:面上项目
批准号:61876068
批准年份:2018
资助金额:62.00
项目类别:面上项目
批准号:69874039
批准年份:1998
资助金额:10.50
项目类别:面上项目
批准号:81873177
批准年份:2018
资助金额:56.00
项目类别:面上项目
批准号:81673832
批准年份:2016
资助金额:58.00
项目类别:面上项目
批准号:60174048
批准年份:2001
资助金额:18.00
项目类别:面上项目
批准号:69474036
批准年份:1994
资助金额:7.00
项目类别:面上项目
批准号:81470188
批准年份:2014
资助金额:70.00
项目类别:面上项目

相似国自然基金

1

变换结构方程模型的非参数贝叶斯分析

批准号:11471277
批准年份:2014
负责人:宋心远
学科分类:A0403
资助金额:60.00
项目类别:面上项目
2

基于非参数层次贝叶斯模型的自适应字典稀疏表示方法及应用

批准号:61172179
批准年份:2011
负责人:丁兴号
学科分类:F0116
资助金额:60.00
项目类别:面上项目
3

高维数据的非参数经验贝叶斯方法

批准号:11201327
批准年份:2012
负责人:姜文华
学科分类:A0402
资助金额:22.00
项目类别:青年科学基金项目
4

贝叶斯多维相关曲线非参数模型研究与应用

批准号:11671146
批准年份:2016
负责人:孙东初
学科分类:A0402
资助金额:48.00
项目类别:面上项目