Lung cancer is one of the most common cancer in China. Identifying the susceptible locus of a given phenotype help to advance our understanding of the genetic basis of lung cancer. However, it is difficult to make further efforts on mining association signals from the large-scale and complex genomics data by the classical statistical models. In comparison with the frequently used “mean” regression, quantile regression (QR) model can assess how conditional quantiles of the phenotype vary with respect to genotype. Consequently, QR depicts the entire distribution of the phenotype rather than its mean as in linear model. Nevertheless, current QR models do not take into full account the feature of genomics data, which yields some limitations including low power, crude parameter estimations, and time consuming. Therefore, this proposal aims to build novel QR models under Bayesian framework and focuses on three aspects as follow: a) some penalized prior distributions will be selected and subsequently combine the functional annotations of locus; b) the error term in Bayesian QR will be parameterized by a reasonable way and the likelihood functions of the continuous and binary phenotypes will be derived; c) we will further derive MCMC and variational algorithms for Bayesian QR to make posterior inference on unknown parameters. This proposal will promote the wide use of QR in aspect of susceptible locus mining and has a meaningful impact on lung cancer pathogenesis studies.
肺癌是我国最常见的恶性肿瘤之一。探索人体表型与遗传位点关联性是癌症遗传机制研究的重要环节。面对复杂、庞大的基因组学数据,经典统计分析模型或策略已经难以进一步有效地挖掘关联信号,因此急需新的分析思路。相较之下,分位数回归模型能够全面探索位点与表型分布各个位置的关联性,在数据探索和挖掘方面具有明显优势。然而当前的分位数回归模型没有充分考虑基因组学数据的结构特点,因而效能较低、参数估计不够准确以及计算耗时长。鉴于此,本课题拟在贝叶斯理论框架下构建分位数回归模型,内容包括:①在先验分布环节,选择具有惩罚功能的先验形式,并整合位点的功能注释信息;②在似然函数环节,合理地参数化随机误差项,考虑连续性和二分类表型下的似然函数;③在后验推断环节,采用标准的MCMC算法和高效的变分推断算法进行后验计算。本课题将拓展现有分位数回归方法学内容,促进其在肺癌关联位点挖掘研究中的应用,具有重要的科学意义和应用价值。
生物医学研究的热点问题之一是识别与感兴趣表型相关联的生物标志物。然而,表型的复杂分布形式和生物标志物的高维结构,给经典的统计分析方法带来了挑战。本研究在分位数回归的框架下开展方法学研究与应用研究,取得一系列研究成果。本项目构建了针对高维组学数据两类表型的贝叶斯分位数回归模型,并使用变分推断算法优化模型的后验计算,开发了模型的数据分析系统。模拟试验的结果表明,我们的方法能够较好地控制假阳性,相比其他方法具有更高的真阳性率,参数估计更准确,并且计算效率更高;实例研究的结果显示我们的方法能够识别具有潜在生物学意义的miRNA。我们进一步构建了一种基于柯西分布合并的复合分位数回归(CQRC),用于快速、稳健地进行关联分析。模拟试验结果表明,对比同类方法,CQRC能够控制Ⅰ类错误,并且在非正态分布的模拟情境下具有最高的效能,说明CQRC对复杂的表型分布有很好的稳健性;在单细胞转录组数据的拟时差异表达分析中,我们的方法能够识别出更多具有潜在生物学意义的拟时差异表达基因。本项目丰富了现有分位数回归方法学内容,为大规模的关联分析提供一系列准确高效稳健的分析工具,具有较高的科学意义和应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
基于分形L系统的水稻根系建模方法研究
监管的非对称性、盈余管理模式选择与证监会执法效率?
基于LASSO-SVMR模型城市生活需水量的预测
转录组与代谢联合解析红花槭叶片中青素苷变化机制
贝叶斯离散分位数回归模型:理论,方法及应用
含有变点的分位数回归模型:贝叶斯分析及应用
基于贝叶斯极端分位数回归的金融风险度量理论及应用研究
网络结构驱动的贝叶斯多水平稀疏线性混合模型在全基因组关联研究中的应用