This project is devoted to build the multivariate hidden Markov models and study the related statistical inference in the frame of “Big data”. Firstly, we consider the dependency structure and the heterogeneity of the multivariate stochastic processes in models. Then, as complicated models often make the maximum likelihood estimateand the inference of the hidden states become intractable when using classical EM algorithm, some statistical techniques such as variational approximate methods and composite likelihood methods will be deep studied in this project..Our aim is to find an optimal solution to ensure the accuracy and the computing speed at the same time in the inference of the hidden states for “Big data”. This will be realized by exploring the models and study the maximum likelihood estimation..The problems considered in this project are inspired from the research of the last several years on gene copy number variation (CNV) in the domain of genetics and genomics. Meanwhile, the hidden Markov model is a statistical model with wide application. Hence, our research will not only enrich the fundamental theory of statistics and provide ideas to deal with “Big data”, but will also contribute to the developmentof life sciences.
本项目致力于在大数据环境下对基因拷贝数变异进行统计模型的研究。首先,在统计模型中我们将考虑多个样本之间的亲缘关系,并把此模型嵌入到多元隐马尔可夫模型中。其次,由于在用经典算法估计最大似然值和推断模型中的隐状态时变得十分困难,为此在本课题中一些统计技术如变分相似法和复合似然估计法将被深入研究。.本课题的研究目标是:第一,建立合适的多元隐马尔可夫模型;第二,在处理大数据过程中通过研究最大似然估计值入手,从推断基因拷贝数的运算速度和精确度两方面找到最佳方案。.项目所涉统计模型源起于近几年对遗传学与基因组学领域中基因拷贝数变异的研究,因此工作的开展对了解生物疾病机理以及遗传育种都有着重要的意义。同时,隐马尔可夫模型本身又是非常重要并且用途极为广泛的统计模型。所以,该研究工作不仅会有助于生命科学的发展,同时也有着丰富统计学中所涉领域的基础理论, 为处理大数据提供快速精确处理思路提供参考。
拷贝数变异是基因结构化变异的主要组成部分。由于拷贝数的变化与疾病、性状等存在着密切的关联性,所以拷贝数的检测一直是生物学领域研究的热点。尤其近年来全基因组测序、单细胞测序等新技术给检测拷贝数带来的不确定性更是促进了统计技术的发展。.在此背景下,我们考虑了隐马尔可夫模型并在统计计算领域也取得进展。相关研究内容如下:一、建立耦合隐马尔可夫模型,并引入多样本间的亲缘关系;二、用极大似然估计和贝叶斯推断两类方法对负二项分布中的参数进行估计;三、对项目中提出的统计推断算法从数学理论角度对其收敛性进行了求证。其中建立的耦合隐马尔可夫模型及其结合的变分EM算法已被验证为是一种速度快、精度高的算法。此部分工作的研究成果有论文发表和软件著作权。另一方面,负二项分布是被广泛应用于拟合过分散计数数据的概率模型,同时也是测序数据检测拷贝数应用最多的模型。为提高统计推断的效率,我们分别在类EM算法和贝叶斯框架下开发了关于负二项分布的具有闭式解的参数估计方法。其中的类EM算法与传统方法相比被验证为是一种具有同样精度但速度更快的方法。此外,本项目中还在算法收敛性方面从两个角度做出了一定的创新:首先,我们从理论上证明了项目中提出的有关负二项分布分类模型如混合模型、隐马尔可夫等模型参数推断的类EM算法的收敛性;同时,分枝过程的收敛性如中偏差、大偏差理论也被考查,此类证明方法期望能在后续工作中为统计推断的收敛性提供重要参考。 .因为隐马尔可夫模型和负二项分布模型在众多应用统计学领域都存在关广泛应用,所以本项目中在拷贝数变异领域所取得的结论很容易推广到其他科学领域。其中,有关负二项分布的算法在地震频数、交通事故、飞机故障频数等数据中已取得良好的分类效果。本项目中提出的统计模型和算法旨在提高有关隐马尔可夫模型和负二项分布模型的计算效率,这在大数据环境下解决数据处理的计算问题有一定的参考意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
氟化铵对CoMoS /ZrO_2催化4-甲基酚加氢脱氧性能的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
基于SSVEP 直接脑控机器人方向和速度研究
隐马尔可夫过程中的复杂性理论及其应用
马尔可夫骨架过程及其在排队论中的应用
马尔可夫骨架过程及其应用
非马尔可夫模型下基于数据关联的隐写分析研究