全球第一轮全基因组关联研究(GWAS)高潮已初战告捷,但其成果与预期结果差距甚远;这与GWAS试验设计和数据分析中某些关键问题有关。试验设计上,多是单一疾病(表型)的病例对照或病例队列设计,缺乏针对综合潜在表型从其连续数量表型变异维度上阐明基因组变异与疾病发生、发展和转归结局关系的纵向GWAS设计;数据分析上,多是单一SNP与单一表型间的关联分析,缺乏以整体基因(或基因组区域)为单位分析其与综合潜在表型动态关联性的推断方法。本项目针对队列GWAS设计,基于疾病数量表型观和潜变量理论,提取多表型的综合潜在表型因子和整体基因(或基因组区域)的综合潜在变异因子;构建二者之间关联分析的方法体系,推断整体基因(或基因组区域)与综合潜在表型发生、发展和转归结局的复杂因果关系。旨在构建高效的"全基因组区域化关联分析统计推断方法体系",为充分挖掘GWAS数据信息提供新方法,提高GWAS的科学性和实用性。
本项目基于数量表型观和潜变量理论,以整体基因或区域为单位,采用潜变量分析方法提取多表型的综合潜在表型因子和整体基因(或基因组区域)的综合潜在变异因子,构建二者之间关联分析的方法体系,推断整体基因(或基因组区域)与综合潜在表型的复杂关系,并采用统计模拟和实例验证对其有效性和实用性进行了评价。所完成的代表性成果包括:(1)构建“基于偏最小二乘路径模型(PLSPM)多数量性状全基因组扫描统计量”。以肥胖的多数量性状为例,构建了“基因组扫描统计模型”和“多基因综合效应模型”, 从理论上证明了Fisher的多基因多数量性状遗传法则,并将数量遗传学的理论和分子遗传学的观察(GWAS数据)统一起来。(2)构建了基于偏最小二乘路径模型(PLSPM)的两整体基因对多数量性状交互作用的统计量,提出一种推断两独立整体基因对多数量性状交互作用的新方法。(3)将上述构建的两整体基因对多数量性状交互作用的统计量,推广到基于病例对照设计的全基因组关联分析设计中,构建了用于推断两整体基因之间的共关联(Co-association)效应的统计量。(4)基于多对多回归理论,针对基因组内SNP的高度共线性(高连锁不平衡(LD)状态)采用偏最小二乘(PLS)和稀疏偏最小二乘(SPLS)回归理论,构建了多数量性状全基因组区域化关联分析扫描模型。(5)从图论的角度详细的解释了两基因之间的共关联作用的概念原理以及它与交互作用的关系,并提出了两个基于Fisher变换的简单统计量来检测共关联作用。
{{i.achievement_title}}
数据更新时间:2023-05-31
一种基于多层设计空间缩减策略的近似高维优化方法
基于LS-SVM香梨可溶性糖的近红外光谱快速检测
神经退行性疾病发病机制的研究进展
基于旋量理论的数控机床几何误差分离与补偿方法研究
二维FM系统的同时故障检测与控制
基于全基因组概括关联统计量的统计建模与推断
全基因组关联分析中基因-基因交互网络比较的统计推断方法研究
基于潜变量模型对有序分类数据的统计推断
带潜变量高维模型的统计推断