With the progress of modern biotechnology, the statistical association test for whole genome data has become an effective method to identify the genetic and pathogenic mechanism underlying many complex human diseases. Taking the tens of thousands of single nucleotide polymorphisms (SNPs) in the genome as the starting point, the study aim is to investigate the relationship between complex disease and potential risk factors. There have been numerous mature approaches for analyzing 0-1 type trait or disease data under the case-control design. Meanwhile, quantitative trait association studies gradually become a hot topic but more challenging. In this project, we focus on the study of the association between quantitative traits and SNPs, taking the genetic model uncertainty into account, propose novel testing statistics with robust properties. Additionally, we will give a robust two stage design scheme and the corresponding calculation method for the statistical significance (p-value) based on the modified F-statistic. For the data of rare variants, we will provide a robust statistical method to test the association between rare variants and quantitative traits. Moreover, we will discuss the influence of the interaction of multiple SNPs on complex diseases, and give more efficient testing statistics for new data types compared with the existing methods. We use the results from simulation study and real data analysis to verify the feasibility and accuracy of the proposed methods.
随着现代生物技术的进步,以人类全基因组数据为研究对象的关联性检验方法已成为识别复杂疾病遗传基因和致病机理的一种有效方法。该类方法主要以基因组上数以万计的单核苷酸多态性(SNP)为出发点来研究复杂疾病与潜在的危险因素之间的关系。针对病例-对照设计下0-1型性状数据已有许多成熟的统计分析方法,相较之下,数量性状的关联分析更具挑战性,对其统计方法的研究正处于不断进展中,并逐渐成为遗传关联研究领域的热门方向之一。本项目侧重研究连续型性状的定量数据与SNP变异之间的关联,考虑遗传模型不确定性因素,提出新的具有稳健性质的检验统计量;给出一种基于改进的F统计量的两阶段设计方案及相应的P-值计算方法;针对稀有变异,提出适用该类型数据的稳健统计检验方法;研究多个SNP之间的交互作用对复杂疾病的影响,给出相比已有方法具有功效优势的检验统计量;通过模拟研究和实际数据分析的结果验证所提新方法的可行性和准确性。
随着计算机以及生物学技术的进步,基于病例-对照设计的全基因组关联研究(GWAS)已经成为识别复杂疾病基因致病机理的一种有效方法。得益于先进检测技术和设备的面世,利用复杂疾病的某些关键指标或性状本身的连续型定量数据(例如,常以转氨酶水平来刻画肝脏功能的好坏),研究人员期望进一步获得基因变异与数量性状(疾病)之间的关联性度量,对该问题的研究也逐渐成为近年来另一个热点课题。在此背景下,本项目深入开展了相关研究探索,初步获得了如下的研究成果:(1)深入研究数量性状与稀有变异之间的关联分析方法,考查协变量存在时对统计显著性计算方法和结果的影响,提出针对高维正态整体的两种基于截尾求和统计量的合并检验方法,并应用于风湿性关节炎的遗传关联分析。(2)对近十年来科学前沿热点问题之一的全基因组关联研究做了较为全面的综述,侧重于讨论其中所用到的统计分析方法,探讨了当前GWAS中存在的一些问题及挑战,并就其发展前景作了展望。(3)针对一般的家系数据,无需对数量性状的分布做任何假定,提出了一种检测数量性状的父源效应的稳健统计量Q-PPAT(c)并给出了处理基因型缺失问题的蒙特卡洛方法,模拟研究和实际数据分析的结果表明所提方法比已有方法功效更高。(4)考虑数量性状的纵向和生存数据的联合模型中放松对随机效应的参数分布限制,以一个中心化狄利克雷过程混合模型来代替,提出了一种计算简便的贝叶斯数据删除诊断,数值模拟和实例分析表明所提方法具有更为广泛的适用性。(5)深入研究了多步合并主成分方法的理论功效表现并提出了一种新的富有效率的主成分合并策略,模拟研究的结果表明所提方法相比现有方法具有更好的稳健性质,并将其用于对TRAF1-C5基因与类风湿性关节炎之间实际数据做关联检验,进一步验证了所提方法的有效性。(6)提出了一种适用于病例-对照设计下基于数据融合策略的两阶段稳健联合分析方法,导出了该联合分析检验统计量的渐近分布,给出了可极大减少运行时间的P-值计算方法。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
作物数量性状的新遗传模型及分析方法的研究
多亲纯系遗传群体的连锁分析与数量性状基因定位方法研究
人类复杂性状“消失的遗传率”统计遗传学分析方法研究
基于下一代测序的数量性状-罕见变异关联研究中大数据的统计分析