Exploring variation patterns of a population distribution in a certain time period is a key question for biology and economics in studying a natural process. Most of the current analysis answer this question through extracting information from high dimensional time course data by comprehensively using clustering and variable selection method based on mixture model. In spite of their success, these methods generally don’t consider the relationship between time and cluster structures, therefore the basic thinking behind is still in the spatial clustering framework. This project aims to develop a class of time-variant clustering methods in the framework of hierarchical Bayesian mixture model, which can be used to do analysis for high dimensional time course individual data with birth/death background. Detailed work include (1)construction of cluster structure space and the relative prior distribution, (2)time-space statistical clustering model development for continuous and concrete data, (3)efficient MCMC algorithm construction for continuous and concrete data, (4)variable selection and graphical structure inference for featured variables in each cluster, (5)application of Dirichlet process in time-space clustering model with complex hidden structure. We will further apply the methods to high-dimensional tumor cell differentiation data analysis and expect to uncover new tumor development mode in order to provide basis for the new drug development.
探究总体分布在一定时间段内的变化模式一直是生物学、经济学在研究某个自然过程中的核心问题。目前的分析多采用基于混合模型的聚类结合变量选择方法,通过从高维时间过程型数据中提取信息来回答这一问题,虽然取得很大进展,然而并没有考虑时间维度和类结构之间的关系,其基本想法还停留在空间聚类的框架下。本项目拟在层次贝叶斯模型框架下,开发一类依时间可变聚类分析方法,用于分析带有生灭背景的高维时间过程型个体数据。具体工作包括:(1) 类结构空间的构造及相应先验分布研究, (2) 针对连续型和离散型个体数据的时空聚类统计模型构建,(3) 连续和离散两种数据背景下的高效MCMC算法设计, (4) 变量选择及特征变量在类中的图结构推断, (5) 狄里克莱过程在带有复杂潜结构的时空聚类模型中的应用。项目进一步会将方法应用于高维肿瘤细胞分化数据的分析中,并期待发现新的肿瘤发生模式,为后续治疗药物的开发提供依据。
本项目在层次贝叶斯模型框架下,开发一类依时间可变聚类分析方法,用于分析带有生灭背景的高维时间过程型个体数据。项目组开发了基于自适应类结构初值设定和重要性抽样相结合的高效时空聚类分析算法;通过建立层次贝叶斯模型和传统因子模型的联系,项目组构建了双向因子模型用于针对带有特殊潜在结构数据集的模型构建和潜结构推断,并完成了推断方法的相关理论研究工作;项目组进一步开发了以狄里克莱过程为基础的自适应类结构空间的贝叶斯推断框架,一定程度上提升了类结构空间的搜索效率。在实际应用中,我们发现新方法在收敛效率和适用范围方面较前人方法均有可观的提升。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
监管的非对称性、盈余管理模式选择与证监会执法效率?
农超对接模式中利益分配问题研究
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
高维时间序列数据聚类分析及应用研究
高维时间过程型数据的聚类及变量选择分析
高维时间序列的数据挖掘算法及应用研究
基于协同标注的海量高维时间序列数据管理关键技术研究