基于基因水平的全基因组关联研究统计方法研究

基本信息
批准号:81202283
项目类别:青年科学基金项目
资助金额:23.00
负责人:易洪刚
学科分类:
依托单位:南京医科大学
批准年份:2012
结题年份:2015
起止时间:2013-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:潘红星,唐少文,沃红梅,戴卉,蔡敏
关键词:
基因核函数降维机器学习全基因组关联研究
结项摘要

To date,the genome-wide association studies (GWAS) have become the most important methods in studying the pathogenic mechanism of complex diseases.For the past few years,GWAS has achieved great success. However, facing the mass of data, the existing statistical methods and analyzing strategies have many statistical problems and greatly behind the actual demand. They haven't high efficiency to dig GWAS data contains rich information. The purpose of this study is to explore statistical methods and strategies of GWAS based on gene-level analysis. This study mainly contains as follows: First,we evaluate the methods of dimension reduction with prior biological information, and then screen the important variables with several statistical methods based on gene-level,such as sparse partial least-square regression, penalized logistic regression and machine learning,etc. Finally, gene-based kernel-based logistic regression models and various kinds of principal component regression models are used to evaluate the joint effect of multilocus SNPs.

全基因组关联研究(GWAS)目前已经成为复杂性疾病致病机制研究最主要的手段。近年来,GWAS取得了骄人的成绩。然而,面对海量的数据,现有统计方法和分析策略存在许多统计学问题,已明显落后于实际需求,无法深入挖掘GWAS 数据中蕴含的丰富信息。本研究探讨基于基因水平的全基因组关联研究中的统计方法和分析策略,包括:首先利用先验生物学信息进行降维;其次基于基因水平采用稀疏偏最小二乘回归、惩罚回归模型、机器学习等方法进行重要SNPs筛选;最后采用logistic核函数回归模型和各种主成分回归模型等多位点分析模型在基因水平对多个SNPs的联合作用进行统计分析。

项目摘要

随着分子生物学检测技术的不断进步,全基因组关联研究(GWAS)已经成为复杂性疾病遗传致病机制研究最重要的研究手段之一。虽然GWAS加深了我们对于复杂性疾病和性状的理解,然而,它也面临着一系列的挑战,尤其是当前以单个位点分析为主的病例对照设计GWAS统计分析策略存在诸多局限性。探索新的GWAS统计分析策略和方法,已成为完善和发展现有GWAS分析策略的一个迫切需求。.本研究提出并评价了能够整合利用生物学先验信息的GWAS统计方法和分析策略。通过计算机模拟试验和实际资料的分析,评价了各种现有各种常用方法,并从生物学、统计学和实际应用角度评价了GWAS新策略的统计学性质和实际应用效果。研究结果表明:(1)整合利用各种生物学先验信息,体现了SNPs集合中多个位点的遗传效应,降低统计学检验的维度,能够用于检验SNPs集合与疾病之间复杂关系;(2)从模拟试验的第一类错误和检验效能结果来看,核函数logistic回归模型、主成分logistic回归模型和偏最小二乘logistic回归模型等方法要优于传统单个位点分析GWAS分析策略;(3)本研究所提以多水平模型为核心的分析策略检验效能、ROC曲线下面积均要高于传统的logistic回归模型(LR),参数估计均方误差(MSE)和区间估计宽度均要小于logistic回归模型;(4)在各种敏感性分析中,无论是先验信息的缺失、增加额外的“噪声”,还是仅采用无先验的“噪声”,多水平模型均优于logistic回归模型;(5)基于非小细胞肺癌GWAS实例分析,结果表明HM和LR在同一染色体区域内均能检测出阳性结果的SNPs位点。HM的点估计略低于LR,其区间估计比LR更窄。.总之,本研究结果提示多水平模型GWAS分析策略能够更好地控制高维数据分析的假阳性,并且保证一定检验效能,从统计学和生物学角度来识别与疾病有关联的遗传变异。本研究提出的利用先验信息的多水平模型GWAS研究策略和分析方法,较好地回答了生物学实际工作者的问题,值得推广应用。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DOI:10.3969/j.issn.1673-1689.2021.10.004
发表时间:2021
3

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
4

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
5

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019

易洪刚的其他基金

相似国自然基金

1

基于全基因组概括关联统计量的统计建模与推断

批准号:11771463
批准年份:2017
负责人:郭小波
学科分类:A0403
资助金额:48.00
项目类别:面上项目
2

全基因组关联分析中基因-基因交互网络比较的统计推断方法研究

批准号:31200994
批准年份:2012
负责人:袁中尚
学科分类:C0609
资助金额:20.00
项目类别:青年科学基金项目
3

基于网络的全基因组关联分析方法

批准号:31471246
批准年份:2014
负责人:邓明华
学科分类:C0608
资助金额:70.00
项目类别:面上项目
4

全基因组关联研究中基因-基因、基因-环境交互作用统计分析方法研究

批准号:81473070
批准年份:2014
负责人:陈峰
学科分类:H3011
资助金额:80.00
项目类别:面上项目