Variants identified in recent GWAS based on the common-disease common-variant hypothesis are far from fully explaining the hereditability of complex traits. Researchers have gradually formed a consensus that rare-variants are more likely to explain some of the missing hereditability. Advances and applications in next-generation sequencing (NGS) technologies provide an unprecedented opportunity to discover rare-variants with a high degree of accuracy, but it is more challenging to perform statistical analysis for rare-variants data due to its large size and complex structure. In this project, we focus on big data statistical methods for identifying rare-variants which are significantly associated with quantitative traits of interest. Taking the general correlation of covariance for rare-variant effects into account, we will propose a data-adaptive optimal Score test with maximal power base on the sequence kernel association test with optimal weight (SKAT-O) in Lee, Wu & Lin(2012), and discuss its asymptotic properties. Additionally, we will study the performance of linear mixed-effects model on adjusting for population stratification when testing on rare-variants, and compare its effectiveness with principal component analysis (PCA) and spectral dimensional reduction (SDR). Moreover, we will give a Bayesian model uncertainty method when testing large numbers of rare-variants for quantitative traits in the context of a hierarchical model, and study the corresponding local false discovery rate approach. Finally, we will propose a robust statistic for testing rare-variants on the X chromosome for quantitative traits.
近年来在“常见变异-常见疾病”假设下开展的GWAS识别出的变异远远不能解释复杂性状的遗传机理,研究人员逐渐形成的一个共识是罕见变异更可能解释一部分“丢失的遗传力”。随着下一代测序技术的逐渐成熟和广泛应用,之前难以准确测序的罕见变异已能高精度地检测出来,但体量庞大、结构复杂的罕见变异数据也给统计分析带来了更大的挑战。本项目侧重研究可用于识别与数量性状存在显著关联的罕见变异的大数据统计方法,考虑罕见变异效应一般性相关结构的协方差,在Lee, Wu & Lin(2012)中SKAT-O的基础上构造具有最大功效的数据自适应最优化Score检验并讨论其渐近分布性质;研究线性混合效应模型在罕见变异的群体分层校正上的表现及其与PCA和SDR方法之间的优劣;研究数量性状情形Y取连续值时分层模型和贝叶斯模型不确定性方法及相应的局部FDR方法;给出可对数量性状与X染色体的罕见变异进行关联检验的稳健统计量。
近年来在“常见变异-常见疾病”假设下开展的GWAS识别出的变异远远不能解释复杂性状的遗传机理,研究人员逐渐形成的一个共识是罕见变异更可能解释一部分“丢失的遗传力”。随着下一代测序技术的逐渐成熟和广泛应用,之前难以准确测序的罕见变异已能高精度地检测出来,但体量庞大、结构复杂的罕见变异数据也给统计分析带来了更大的挑战。本项目侧重研究可用于识别与数量性状存在显著关联的罕见变异的稳健统计方法:1)提出了一种新的对遗传模型不确定具有稳健表现的统计检验方法——融合哈代-温伯格平衡信息并嵌入模型信息的趋势性检验统计量,研究了该统计量的渐近分布性质,给出了计算其统计显著性的显式公式,通过大量的数值模拟分析来说明所提方法相比已有方法具有更好的稳健性质;2)提出了一个名为GFcom的压缩估计量(包含点估计和区间估计)以整合GWAS和随访研究的信息来估计随访研究中候选SNP的优势比,通过数值模拟验证了GFcom相比其竞争估计量在MSE和置信区间长度方面更加有效,将GFcom应用到三项实际的随访研究中,统计分析的结果进一步验证了其优良表现,并编写了同名R程序包供公众自由使用;3)提出一个可同时处理有序表型、基因型和协变量的新模型,将有序表型及基因型视为潜在多元正态随机变量的实现值,运用广义估计方程技术及M估计理论获得模型参数的估计并推导相应的渐近分布,通过数值模拟和实际数据分析验证该方法相比logit和probit模型的有效性;4)提出了两阶段SSU及SKAT方法,第一阶段运用哈代-温伯格平衡检验来选择SNP的遗传模型,第二阶段再基于选择的遗传模型来构建SSU及SKAT检验统计量,数值模拟与二型糖尿病实际数据分析的结果表明所提方法相比原始的SSU及SKAT方法在多数情况下效果更优。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于下一代测序技术的重复基因结构及拷贝数目变异与癌症关联性研究
罕见遗传变异关联性分析的统计方法研究
数量性状遗传关联分析中的统计方法研究
酿酒酵母种群抗逆性及乙醇耐受数量性状基因的变异研究