Genome-wide association studies have identified numerous genetic variants associated with complex disease. However, these variants can only explain a small portion of heritability in many diseases. Gene-based association methods have been proved to be alternative strategies to capture some missing heritability, but the majority of these methods are based on linear model and cannot be generalized to high-dimensional data. Recent advances in high-dimensional model development have been shifted from high-dimensional variable selection to high-dimensional statistical inference. While most inference procedures are still built upon linear models, they fail to capture any potential nonlinear relationship. Moreover, these models have limited power to detect weak genetic signals. Our previous study revealed that a composite kernel can substantially improve the performance of dealing with nonlinear problems, and a maximum statistic method distribution and a p-value combination method can respectively improve the power of two genetic effect hypotheses which are main loci determinism and loci micro effect accumulation theory. Motivated by this, in this project we propose to construct a gene-based nonlinear high-dimensional statistical inference procedure that can be adaptive to the two genetic effect hypotheses by combing the composite kernel idea, linear high-dimensional statistical inference procedure and Omnibus Test, to improve the power of detecting genetic variants, and to provide a novel statistical framework for the study of genetic mechanism underlying complex human diseases.
目前全基因组关联分析已找到了大量复杂疾病相关遗传变异,但这些变异只能解释很小一部分遗传力。基于基因的方法被认为可以弥补一些缺失的遗传力,但这些方法大多基于线性模型,也无法拓展到高维数据上。近年来高维统计模型的开发已从高维变量筛选发展到高维统计推断,但大多仍为线性模型,无法捕捉遗传变异与复杂疾病间的非线性关系,且对微效变异的探测能力不高。我们前期研究发现应用复合核(Composite kernel)可以提高核方法处理非线性问题的能力,也发现“最大统计量”分布和合并p值方法可以分别提高两种遗传效应假设(主要位点决定论和位点微效累加论)的检验效能。本项目将联合应用复合核方法、线性高维统计推断模型以及混合检验(Omnibus Test)方法,构建能够自适应两种遗传效应假设的基于基因的非线性高维统计推断模型,以提高对遗传变异的探测能力,为研究复杂疾病的遗传机制提供统计学新方法。
传统GWAS大多是对单一SNP进行分析,所识别的易感位点只解释了复杂疾病中一小部分的遗传力。若能同时考虑一组SNPs,那么将能够解释复杂疾病中大部分的遗传力,从而减少遗传力的缺失,即从基因水平(一组SNPs)上研究遗传变异与复杂疾病的关联可以很好地弥补传统遗传力的缺失,有助于理解复杂疾病背后的遗传学机制。目前,在探测基因对复杂疾病的效应时,通常采用的是线性模型,然而基因对复杂疾病的效应通常是未知的,而且很有可能是非线性的,因此不具备自适应不同遗传效应的线性模型的应用就有一定的局限性,且易致假阴性。本项目提出非线性基因效应探测的高维统计推断模型,基于群体关联分析原理,将线性高维统计推断模型拓展到非线性模型研究,以解决基因效应探测方法中模型假设性过强、检验效能过低等的不足。基于核方法理论、引入Omnibus Test思想,我们提出了以下的模型框架和开展了以下的工作:.1.针对基因组内超高维的SNP数据,我们提出了一个三阶段的建模框架,即第一阶段先应用变量筛选的方法将超高维数据降至高维;第二阶段应用高维统计推断方法得到每一个SNP的P值;第三阶段将SNPs映射到相应的基因,并利用Omnibus test的思想得到基因水平的P值,并实现遗传效应的自适应探测。此模型考虑以基因为单位,具备自适应不同遗传效应的能力;.2.通过引入核方法理论,构建高维数据环境下核主成分回归模型,解决了模型捕捉非线性效应的问题。.3.为了解决核主成分个数保留的问题,我们提出基于pre-image理论的核主成分个数保留技术,使模型的推断结果更加稳健。.4.为了解决ART-A中最小P值个数的选择问题,我们提出了iATR-A方法,使P值整合方法更稳健,检验效能更高。.5.通过大量的模拟证实了模型对线性和非线性效应的探测能力,对其有效性和实用性进行评价,相关计算程序采用R语言编写,可以广泛推广。.6.应用于阿尔兹海默症SNP数据,通过实际数据分析来验证模型的实证性。.我们开发的方法和程序为复杂疾病的基因诊断和预防以及遗传机制研究提供了研究工具与有效的方法。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
基于SSVEP 直接脑控机器人方向和速度研究
复杂疾病关联分析中高维遗传数据的统计推断
带潜变量高维模型的统计推断
复杂数据非线性模型的统计推断及其应用
高维数据的图模型学习与统计推断