Despite the great success in identifying genes in genome-wide association study(GWAS), the single nucleotide polymorphisms (SNP) indentified through the single-SNP based approach or SNP set analysis only account for a small proportion of genetic variation. Complex diease is caused by muliple external factors (environmental exposure) and internal factors (genetic mutaion). Gene-environment interaction and gene-gene interaction may account for the missing heritability. Traditional methods for detecting interactions (logistic regression et, al.) in simple datasets or data mining approaches (random forest et, al.) in large-scale genetic datasets are no longer appropriate in GWAS datasets. Recently, many methods were proposed for detecting interactions in GWAS. However, they have obvious bugs in statistical algorithm or heavy computation burden. Based on these considerations, we aim to improve exsisted methods for detecting first-order interaction, proposed new methods and stratigies for detecting high-order interaction in GWAS. Furthermore, we will utilize parallel computing to speed up calculation based CPU/MPI or GPU/CUDA techniques. Additinally, the new proposed methods and softwares will be applied in real GWAS datasets to indentify gene-environment interactions and gene-gene interactions on genome-wide scale.
全基因组关联研究(GWAS)目前已经硕果累累。然而,基于单个位点或者一组位点主效应分析所检出的遗传位点仅能解释一小部分遗传变异。复杂疾病往往由多种外在因素(环境暴露)、内在因素(基因变异)相互作用导致,因此,基因-基因、基因-环境交互作用是复杂疾病不可忽视的重要形成因素!全基因组关联研究中,若忽视交互作用将导致遗传性缺失。然而,面对数十万个位点的数据,常规交互作用分析方法(如logistic 回归等)及中低维度数据挖掘方法(如随机森林等)受计算复杂度、运行速度限制,无法实现全基因组水平交互作用的检测。组学领域现有的高维数据交互作用方法仍存在统计算法不完善或计算速度不够快的缺陷。基于此,本课题拟改进现有一阶交互作用分析方法,并创新高阶交互作用方法和降维策略,控制假阳性、提高把握度;并利用计算机CPU、GPU 并行计算技术开发软件,软、硬件同时加速计算,使GWAS交互作用的分析成为常规方法。
复杂疾病常由环境暴露、基因突变相互作用导致。基因-基因、基因-环境交互作用是复杂疾病研究不可忽视的重要因素。然而,组学研究中的交互作用分析受计算复杂度、运行速度限制,很难实现全组学水平交互作用信号检测。本课题改进交互作用统计分析策略和方法,开发专用软件,使得全组学交互作用分析“有方法可循,有软件可用”。.(1) 交互作用分析的准备工作。从变量降维的角度,对常用的5种降维方法进行了系统评价。模拟试验显示:5种方法均能控制一类错误;当基因间存在一定相关性时,推荐效能相对较优的PCA和SKAT检验。针对多组学“块缺失”数据,提出“填补”和“架桥”两种分析思路。与传统填补方法相比,TOBMI填补算法精度最高,填补后能维持原数据结构和关系。此外,两种 “架桥”算法:全信息极大似然法和配对删除法,估计精度上也优于样本直接删除法。.(2) 交互作用分析的理论方法研究。一方面,针对罕见变异数据,提出LRT方差成分检验和基于PQL的方差成分检验,分别处理连续性和二分类结局变量的一组变量的交互作用研究。模拟试验显示:所提方法能够有效控制一类错误,且检验效能优于现有方法。另一方面,充分利用先验信息,提出BAL-VI和SurvEMVS两种Bayes模型,分别用于二分类和生存时间变量交互作用信号的平行快速筛选。模拟试验显示:所提方法具有参数估计误差小,预测准确度高,高维数据结构快速收敛等优点。.(3) 交互作用分析方法的应用研究。开发了4个交互式分析平台,使得复杂的交互作用研究变得操作便捷、易于实现。并基于肺癌国际多中心表观基因组合作研究、头颈部肿瘤与口腔癌表观基因组公共数据、中-美-孟出生队列代谢组数据等资源识别出多个疾病相关的生物学标志物。稳健的人群关联研究结果为生物学机制研究提供了有力证据。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
卫生系统韧性研究概况及其展望
栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究
气载放射性碘采样测量方法研究进展
Ti-1.5Al-4.5Fe-6.8Mo合金在氢气相变烧结(HSPT)过程中的致密化及相变机理研究
畜禽全基因组关联分析中基因交互作用检测方法研究
全基因组关联分析基因交互作用探测算法研究
全基因组关联研究中的降维策略和统计分析方法研究
全基因组关联分析中基因-基因交互网络比较的统计推断方法研究