This project concerns model selection in mixtures models. The well-known Bayesian information criterion (BIC) is frequently used for this purpose. However, it is found that BIC penalizes the sub-model in each cluster implausibly using the whole sample size, leading to over-penalization. To overcome this problem, based on the available research works of PI, this project will originally propose a new criterion called hierarchical BIC for Gaussian mixture models. The novelty is that each sub-model is penalized using its own effective sample size only. Theoretically, it will be shown that hierarchical BIC is a large sample approximation of variational Bayesian (VB) lower bound and BIC is a further approximation. Empirically, hierarchical BIC and BIC will be compared comprehensively on choosing the number of clusters and the type of covariance structures simultaneously. For mixtures of factor analyzers where the covariance has a factor structure, an efficient learning algorithm which can perform parameter estimation and model selection simultaneously will be developed, alleviating greatly the heavy computational load suffered by the existing two-stage learning algorithm. Finally, the above results such as hierarchical BIC and the learning algorithm under the Gaussian cases will be extended to the counterparts modelling by multivariate t distributions. Applications such as unsupervised clustering and statistical classification will be investigated.
本项目关心的是有限混合模型的模型选择问题,著名的贝叶斯信息标准(BIC)频繁地用于此目的。然而,BIC不合理地用整个样本量惩罚每个聚类子模型的模型复杂性,造成过惩罚。为克服这一问题,在课题申请人现有工作基础上,本项目针对高斯混合模型原创性提出一种新的模型选择标准称为分级BIC,新颖性在于仅用各个子模型自身的有效子样本量来惩罚模型复杂性。理论上,将证明提出的分级BIC是变分贝叶斯置信下界的大样本极限且BIC是其进一步近似。实验上将全面比较分级BIC和BIC同时选择类别个数和子模型协方差结构的表现。对于协方差结构为因子结构的高斯混合因子分析模型,将开发计算上更为有效的学习算法,能够同时进行参数估计和模型选择,克服存在两阶段法计算负荷较严重的问题。拓展方面将上述高斯情形的结果如分级BIC以及有效学习算法推广到多元t分布相应的混合模型。应用方面将考查非监督聚类、统计分类等。
本项目对有限混合模型的模型选择问题开展研究,完成了原定研究计划,主要取得了如下多项研究成果和阶段性成果。(1)提出了一种新的混合模型选择准则,适用于不同成分模型具有共同参数约束,理论上分析了提出的新准则与变分贝叶斯置信下界以及BIC的关系, 并应用于高斯混合模型族;(2)提出了一种新的混合模型选择准则,适用于不同成分模型没有共同参数约束,新颖性在于仅用各个成分模型自身的有效子样本量来惩罚模型复杂性。提出的准则应用于混合因子分析模型,开发了一个新的有效学习算法,将参数估计和模型选择同时进行;(3)在缺失数据情形下,提出了一个新型的模型选择标准,其特点在于仅利用实际观测数据信息来惩罚模型。(4)在判别分析拓展研究方面,提出一种新的针对二维数据的两阶段正则化判别分析方法,实证研究结果表明,提出的方法比传统的正则化线性判别分析以及一些相关方法具有更为优异的分类表现。..项目组在国内外机器学习领域、统计学领域著名期刊发表论文3篇,均为SCI收录,包括1篇《IEEE Transactions on Neural Networks and Learning Systems》,2篇统计学领域期刊《Computational Statistics & Data Analysis》,另有2篇论文处于撰写、修改过程中;获得云南省哲学社科优秀成果奖三等奖1项;培养研究生共计9名。按预期目标完成了研究任务。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
监管的非对称性、盈余管理模式选择与证监会执法效率?
粗颗粒土的静止土压力系数非线性分析与计算方法
基于SSVEP 直接脑控机器人方向和速度研究
中国参与全球价值链的环境效应分析
混合贝叶斯网的概率推理
结合暗能量模型的观测限制及其贝叶斯模型选择标准解析暗能量性质
非可加信息贝叶斯更新条件下的期权定价方法研究
连续时间金融模型的贝叶斯分析