The group structure is widely existed in high-dimensional genetic data. Using the group structure information to build new integrated analysis model for personalized risk prediction is a hot research area for disease prevention and control. This project will propose a new methodology for integrating the group structure information in modeling high-dimensional genetic data, based on the unique advantage of Bayesian model in integrating prior information. A new group spike-and-slab mixture prior distribution and a fast and stable algorithm will be developed for estimating the genes effect size, controlling the false positive, and improving the prediction power. Extension study will be performed for high-dimensional general linear model and Cox model. A whole set of novel methodology will be developed for modeling the group structure information in high-dimensional genetic data. The effectiveness and advantages of the proposed model in integrating the group structure information will be validated through intensive simulation studies. The wide applicability of the proposed model will be presented by analyzing the case-control data of ischemic stroke, cancers survival data, and microbiome data with multiple level group structure. The accomplishment of this project will lay the new theoretical and methodology foundation for modeling the group structure information in high-dimensional genetic data. The personalized risk prediction model for each real data will provide new insight for personalized risk prediction, which has important significance for public health.
高维遗传数据普遍存在具有生物学意义的组群结构信息,如何利用组群结构信息建立新的整合分析模型,对个体的疾病风险进行精准预测是公共卫生领域的热点方向。本项目将发挥贝叶斯模型在先验信息整合方面的独特优势,通过设置新的组群结构参数,有效整合组群结构信息,通过构造新的group spike-and-slab混合先验分布,研制快速稳健的算法,准确估计基因效应,有效控制假阳性,显著提高模型的预测效能,进而发展出一整套适用于高维GLM和Cox模型的整合组群结构信息的模型构建新方法。本项目拟通过模拟研究验证模型在组群信息整合和预测效能等方面的优越性,通过分析缺血性脑卒中病例对照数据,肿瘤生存数据和微生物多水平组群结构数据,展示本项目提出方法的广泛适用性。本项目的完成将为高维数据组群结构信息整合提供新的理论和方法,具有重要的理论创新意义,同时也将为相关疾病个体化风险预测型构建提供新的思路,具有重要的应用价值。
在生物医学大数据不断涌现的背景下,采用新的统计模型和分析方法,建立精准有效的疾病风险预测模型,对个体的疾病发病风险情况进行准确的估计和预测,以实施个体化预防是目前国内外公共卫生领域研究的热点方向。整合建立一整套高维遗传数据分析的模型和方法,提出疾病风险预测模型构建的新方法是统计学研究和临床研究亟待解决的问题。本项目以贝叶斯多水平模型为基础,创新性地构造组群结构参数,提出了group spike-and-slab混合双指数先验分布,通过开发的cyclic coordinate descent快速算法,构建了较为完整地高维遗传数据下疾病风险预测建立的贝叶斯理论体系。我们分别提出了group spike-and-slab lasso GLMs和group spike-and-slab lasso Cox方法。相关方法突出的优势体现在:(1)采用了group spike-and-slab混合双指数先验分布,其中组群结构参数的估计决定了不同组群的相对重要性。当组群结构参数取值较大时,说明该组群相对重要,则相应组群内变量进行较弱的压缩估计;(2)实现对微小遗传效应的准确估计;(3)有效控制假阳;(4)显著提高了模型的预测效能。在应用方面,我们以TCGA的肉瘤、卵巢癌和乳腺癌等数据检验所提出方法的有效性,分析结果表明在偏差统计量(deviance),模型误差(MSE),曲线下面积(AUC),误判率(Misclassification);偏似然函数(Partial log-likelihood),C指数(C-index)等方面,本项目提出的方法均优于常用的其他组群结构方法。上述相关方法的建立为高维数据的疾病风险模型构建奠定了新的方法学基础,促进了贝叶斯方法在高维数据研究领域的发展。此外,在本项目的资助下,我们使用高维遗传数据分析方法进行了一系列癌症患者放疗敏感性的探索研究。在该项目的资助下,已发表与项目相关的SCI论文20余篇,其中两篇为学科内TOP期刊。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
玉米叶向值的全基因组关联分析
粗颗粒土的静止土压力系数非线性分析与计算方法
基于SSVEP 直接脑控机器人方向和速度研究
中国参与全球价值链的环境效应分析
整合遗传高维数据的贝叶斯多水平疾病风险预测模型构建方法与应用研究
融合结构信息的高维数据稳健估计
整合高维基因数据和临床特征的生存预后模型构建
基于结构组稀疏算法的多尺度高维数据变量筛选及预测模型研究