基于下一代测序的数量性状-罕见变异关联研究中大数据的统计分析

基本信息

批准号：11661080

项目类别：地区科学基金项目

资助金额：36.00

负责人：潘东东

学科分类：

依托单位：云南大学

批准年份：2016

结题年份：2020

起止时间：2017-01-01 - 2020-12-31

项目状态：已结题

项目参与者：李会琼,唐安民,张韵祺,王治强,夏林丽,易凤婷,王云,盛佳,刘娜

关键词：

罕见变异数量性状全基因组关联分析关联分析下一代测序

结项摘要

Variants identified in recent GWAS based on the common-disease common-variant hypothesis are far from fully explaining the hereditability of complex traits. Researchers have gradually formed a consensus that rare-variants are more likely to explain some of the missing hereditability. Advances and applications in next-generation sequencing (NGS) technologies provide an unprecedented opportunity to discover rare-variants with a high degree of accuracy, but it is more challenging to perform statistical analysis for rare-variants data due to its large size and complex structure. In this project, we focus on big data statistical methods for identifying rare-variants which are significantly associated with quantitative traits of interest. Taking the general correlation of covariance for rare-variant effects into account, we will propose a data-adaptive optimal Score test with maximal power base on the sequence kernel association test with optimal weight (SKAT-O) in Lee, Wu & Lin(2012), and discuss its asymptotic properties. Additionally, we will study the performance of linear mixed-effects model on adjusting for population stratification when testing on rare-variants, and compare its effectiveness with principal component analysis (PCA) and spectral dimensional reduction (SDR). Moreover, we will give a Bayesian model uncertainty method when testing large numbers of rare-variants for quantitative traits in the context of a hierarchical model, and study the corresponding local false discovery rate approach. Finally, we will propose a robust statistic for testing rare-variants on the X chromosome for quantitative traits.

近年来在“常见变异-常见疾病”假设下开展的GWAS识别出的变异远远不能解释复杂性状的遗传机理，研究人员逐渐形成的一个共识是罕见变异更可能解释一部分“丢失的遗传力”。随着下一代测序技术的逐渐成熟和广泛应用，之前难以准确测序的罕见变异已能高精度地检测出来，但体量庞大、结构复杂的罕见变异数据也给统计分析带来了更大的挑战。本项目侧重研究可用于识别与数量性状存在显著关联的罕见变异的大数据统计方法，考虑罕见变异效应一般性相关结构的协方差，在Lee, Wu & Lin(2012)中SKAT-O的基础上构造具有最大功效的数据自适应最优化Score检验并讨论其渐近分布性质；研究线性混合效应模型在罕见变异的群体分层校正上的表现及其与PCA和SDR方法之间的优劣；研究数量性状情形Y取连续值时分层模型和贝叶斯模型不确定性方法及相应的局部FDR方法；给出可对数量性状与X染色体的罕见变异进行关联检验的稳健统计量。

项目摘要

近年来在“常见变异-常见疾病”假设下开展的GWAS识别出的变异远远不能解释复杂性状的遗传机理，研究人员逐渐形成的一个共识是罕见变异更可能解释一部分“丢失的遗传力”。随着下一代测序技术的逐渐成熟和广泛应用，之前难以准确测序的罕见变异已能高精度地检测出来，但体量庞大、结构复杂的罕见变异数据也给统计分析带来了更大的挑战。本项目侧重研究可用于识别与数量性状存在显著关联的罕见变异的稳健统计方法：1）提出了一种新的对遗传模型不确定具有稳健表现的统计检验方法——融合哈代-温伯格平衡信息并嵌入模型信息的趋势性检验统计量，研究了该统计量的渐近分布性质，给出了计算其统计显著性的显式公式，通过大量的数值模拟分析来说明所提方法相比已有方法具有更好的稳健性质；2）提出了一个名为GFcom的压缩估计量（包含点估计和区间估计）以整合GWAS和随访研究的信息来估计随访研究中候选SNP的优势比，通过数值模拟验证了GFcom相比其竞争估计量在MSE和置信区间长度方面更加有效，将GFcom应用到三项实际的随访研究中，统计分析的结果进一步验证了其优良表现，并编写了同名R程序包供公众自由使用；3）提出一个可同时处理有序表型、基因型和协变量的新模型，将有序表型及基因型视为潜在多元正态随机变量的实现值，运用广义估计方程技术及M估计理论获得模型参数的估计并推导相应的渐近分布，通过数值模拟和实际数据分析验证该方法相比logit和probit模型的有效性；4）提出了两阶段SSU及SKAT方法，第一阶段运用哈代-温伯格平衡检验来选择SNP的遗传模型，第二阶段再基于选择的遗传模型来构建SSU及SKAT检验统计量，数值模拟与二型糖尿病实际数据分析的结果表明所提方法相比原始的SSU及SKAT方法在多数情况下效果更优。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：10.11842/wst.20190724002

发表时间：2020

DOI：10.7498/aps.68.20181682

发表时间：2019

DOI：10.3969/j.issn.1000-0844.2017.05.0820

发表时间：2017

DOI：10.7500/aeps20191122006

发表时间：2020

潘东东的其他基金

批准号：12126428

批准年份：2021

资助金额：20.00

项目类别：数学天元基金项目

批准号：11301465

批准年份：2013

资助金额：22.00

项目类别：青年科学基金项目

相似国自然基金

基于下一代测序技术的重复基因结构及拷贝数目变异与癌症关联性研究

批准号：61501392

批准年份：2015

负责人：连帅彬

学科分类：F0124

资助金额：19.00

项目类别：青年科学基金项目

罕见遗传变异关联性分析的统计方法研究

批准号：81402765

批准年份：2014

负责人：曾平

学科分类：H3011

资助金额：23.00

项目类别：青年科学基金项目

数量性状遗传关联分析中的统计方法研究

批准号：11301465

批准年份：2013

负责人：潘东东

学科分类：A0403

资助金额：22.00

项目类别：青年科学基金项目

酿酒酵母种群抗逆性及乙醇耐受数量性状基因的变异研究

批准号：30900007

批准年份：2009

负责人：王士安

学科分类：C0101

资助金额：20.00

项目类别：青年科学基金项目

基于下一代测序的数量性状-罕见变异关联研究中大数据的统计分析

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

铁路大跨度简支钢桁梁桥车-桥耦合振动研究

基于暂态波形相关性的配电网故障定位方法

潘东东的其他基金

高维数据统计推断专题讲习班

数量性状遗传关联分析中的统计方法研究

相似国自然基金