To date,the genome-wide association studies (GWAS) have become the most important methods in studying the pathogenic mechanism of complex diseases.For the past few years,GWAS has achieved great success. However, facing the mass of data, the existing statistical methods and analyzing strategies have many statistical problems and greatly behind the actual demand. They haven't high efficiency to dig GWAS data contains rich information. The purpose of this study is to explore statistical methods and strategies of GWAS based on gene-level analysis. This study mainly contains as follows: First,we evaluate the methods of dimension reduction with prior biological information, and then screen the important variables with several statistical methods based on gene-level,such as sparse partial least-square regression, penalized logistic regression and machine learning,etc. Finally, gene-based kernel-based logistic regression models and various kinds of principal component regression models are used to evaluate the joint effect of multilocus SNPs.
全基因组关联研究(GWAS)目前已经成为复杂性疾病致病机制研究最主要的手段。近年来,GWAS取得了骄人的成绩。然而,面对海量的数据,现有统计方法和分析策略存在许多统计学问题,已明显落后于实际需求,无法深入挖掘GWAS 数据中蕴含的丰富信息。本研究探讨基于基因水平的全基因组关联研究中的统计方法和分析策略,包括:首先利用先验生物学信息进行降维;其次基于基因水平采用稀疏偏最小二乘回归、惩罚回归模型、机器学习等方法进行重要SNPs筛选;最后采用logistic核函数回归模型和各种主成分回归模型等多位点分析模型在基因水平对多个SNPs的联合作用进行统计分析。
随着分子生物学检测技术的不断进步,全基因组关联研究(GWAS)已经成为复杂性疾病遗传致病机制研究最重要的研究手段之一。虽然GWAS加深了我们对于复杂性疾病和性状的理解,然而,它也面临着一系列的挑战,尤其是当前以单个位点分析为主的病例对照设计GWAS统计分析策略存在诸多局限性。探索新的GWAS统计分析策略和方法,已成为完善和发展现有GWAS分析策略的一个迫切需求。.本研究提出并评价了能够整合利用生物学先验信息的GWAS统计方法和分析策略。通过计算机模拟试验和实际资料的分析,评价了各种现有各种常用方法,并从生物学、统计学和实际应用角度评价了GWAS新策略的统计学性质和实际应用效果。研究结果表明:(1)整合利用各种生物学先验信息,体现了SNPs集合中多个位点的遗传效应,降低统计学检验的维度,能够用于检验SNPs集合与疾病之间复杂关系;(2)从模拟试验的第一类错误和检验效能结果来看,核函数logistic回归模型、主成分logistic回归模型和偏最小二乘logistic回归模型等方法要优于传统单个位点分析GWAS分析策略;(3)本研究所提以多水平模型为核心的分析策略检验效能、ROC曲线下面积均要高于传统的logistic回归模型(LR),参数估计均方误差(MSE)和区间估计宽度均要小于logistic回归模型;(4)在各种敏感性分析中,无论是先验信息的缺失、增加额外的“噪声”,还是仅采用无先验的“噪声”,多水平模型均优于logistic回归模型;(5)基于非小细胞肺癌GWAS实例分析,结果表明HM和LR在同一染色体区域内均能检测出阳性结果的SNPs位点。HM的点估计略低于LR,其区间估计比LR更窄。.总之,本研究结果提示多水平模型GWAS分析策略能够更好地控制高维数据分析的假阳性,并且保证一定检验效能,从统计学和生物学角度来识别与疾病有关联的遗传变异。本研究提出的利用先验信息的多水平模型GWAS研究策略和分析方法,较好地回答了生物学实际工作者的问题,值得推广应用。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
基于SSVEP 直接脑控机器人方向和速度研究
拥堵路网交通流均衡分配模型
基于全基因组概括关联统计量的统计建模与推断
全基因组关联分析中基因-基因交互网络比较的统计推断方法研究
基于网络的全基因组关联分析方法
全基因组关联研究中基因-基因、基因-环境交互作用统计分析方法研究