Cardio-Cerebral-Vascular Diseases (CCVD) is the leading cause of death in China. The incidence and prevalence rate still increase in recent years. The population-based prevention and control are facing serious challenge. Personalized risk prediction is becoming the new trend for disease prevention and control. Currently, biological and medical big data are emerging. There is an urgent need to develop a new risk prediction model by incorporating genetic high-dimensional data and existing biological information, such as gene network. This project based on the Bayesian hierarchical model will propose a new methodology for incorporating high-dimensional genetic data, complex interactions and prior biological information to risk prediction modeling. A new professional software will also be provided with fast algorithm. In addition, supported by Major International (Regional) Joint Research Project, the baseline data and the high-dimensional sequence data of 492 genes have been collected from the research population with 2000 case and 2000 control included. Using the above new method and real data, a new risk prediction model for ischemic stroke will be suggested with prior biological information incorporated. The accomplishment of this project will lay the new theoretical and methodology foundation for risk prediction modeling, and also provide a new flexible software. The risk prediction model for ischemic stroke will provide new insights for screening high-risk population, graded management, and personalized prevention, which has important significance for public health.
心脑血管疾病是我国居民的首要死亡原因。近年来,心脑血管疾病的发病率和患病率持续上升,以人群为对象的危险因素干预面临着重大挑战,个体化的风险预测成为疾病预防控制的新趋势。在生物医学大数据不断涌现的背景下,如何整合高维遗传数据和已有生物学信息,构建更加精确的疾病风险预测模型亟待研究。本项目以贝叶斯多水平模型为基础,通过整合高维遗传数据、复杂交互作用和已有生物学信息,提出一种新的疾病风险预测模型构建方法,并开发专用的分析软件。同时,本项目将利用在重大国际合作项目资助下获得的缺血性脑卒中病例对照各2000人的基线数据和492个相关基因测序的高维遗传数据,整合已有生物学先验信息,建立中国人群缺血性脑卒中风险预测的新模型。本项目的完成将为风险预测模型的构建奠定新的理论和方法基础,并提供新的分析软件。同时,也将为我国缺血性脑卒中高危人群筛查、分级管理与个体化预防提供新的思路,具有重要的公共卫生意义。
在生物医学大数据不断涌现的背景下,采用新的统计模型和分析方法,建立精准有效的疾病风险预测模型,对个体的疾病发病风险情况进行准确的估计和预测,以实施个体化预防是目前国内外公共卫生领域研究的热点方向。基于高维遗传数据,提出疾病风险预测模型构建的新方法是统计学研究和临床研究亟待解决的问题。本项目以贝叶斯多水平模型为基础,创新性的提出了sipke-and-slab混合双指数先验分布,通过发展新的cyclic coordinate descent快速算法,初步构建了高维遗传数据下疾病风险预测建立的贝叶斯理论体系,分别提出了sipke-and-slab lasso GLMs和sipke-and-slab lasso Cox方法。相关方法突出的优势体现在:(1)采用了sipke-and-slab混合双指数先验分布,通过使得与结局变量无关的参数直接压缩为0,在参数估计的过程中实现变量选择;(2)对大效应的参数采取弱的压缩,准确估计与结局变量相关联的参数;(3)有效控制假阳;(4)显著提高了模型的预测效能。在应用方面,我们以公开发表的乳腺癌,血癌数据和TCGA的卵巢癌等数据检验所提出方法的有效性,分析结果表明在偏差统计量(deviance),模型误差(MSE),曲线下面积(AUC),误判率(Misclassification),;偏似然函数(Partial log-likelihood),C指数(C-index)等方面,本项目提出的方法均优于常用的lasso方法。上述相关方法的建立为高维数据的疾病风险模型构建奠定了新的方法学基础,促进了贝叶斯方法在高维数据研究领域的发展。此外,在本项目的资助下,我们还提出了基于自适应交叉验证策略的基因标签建立验证的新方法。该方法将基因标签的发现和验证融入在一个自适应的交叉验证程序中,充分利用数据的信息,相关研究为基因标签的发现和验证提供的新的技术参考。.在该项目的资助下,已发表与项目紧密相关的SCI论文5篇,其中两篇为学科内TOP期刊。另外,发表国际学术会议论文1篇(分组报告),国内学术会议论文3篇(2人次分组报告)。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
基于LASSO-SVMR模型城市生活需水量的预测
贝叶斯框架下的叶片光合模型-数据整合方法研究
高维数据的非参数经验贝叶斯方法
基于贝叶斯多水平潜变量模型的血糖时变因子构建方法研究
高维遗传数据预测模型构建中组群结构信息整合的新方法及其应用研究