整合遗传高维数据的贝叶斯多水平疾病风险预测模型构建方法与应用研究

基本信息
批准号:81573253
项目类别:面上项目
资助金额:25.00
负责人:汤在祥
学科分类:
依托单位:苏州大学
批准年份:2015
结题年份:2017
起止时间:2016-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:易能君,孙宏鹏,张欢,武龙飞,朱晓炜,仲崇科,汤海波,刘艳,解惠坚
关键词:
贝叶斯统计缺血性脑卒中预测模型多水平模型高维数据
结项摘要

Cardio-Cerebral-Vascular Diseases (CCVD) is the leading cause of death in China. The incidence and prevalence rate still increase in recent years. The population-based prevention and control are facing serious challenge. Personalized risk prediction is becoming the new trend for disease prevention and control. Currently, biological and medical big data are emerging. There is an urgent need to develop a new risk prediction model by incorporating genetic high-dimensional data and existing biological information, such as gene network. This project based on the Bayesian hierarchical model will propose a new methodology for incorporating high-dimensional genetic data, complex interactions and prior biological information to risk prediction modeling. A new professional software will also be provided with fast algorithm. In addition, supported by Major International (Regional) Joint Research Project, the baseline data and the high-dimensional sequence data of 492 genes have been collected from the research population with 2000 case and 2000 control included. Using the above new method and real data, a new risk prediction model for ischemic stroke will be suggested with prior biological information incorporated. The accomplishment of this project will lay the new theoretical and methodology foundation for risk prediction modeling, and also provide a new flexible software. The risk prediction model for ischemic stroke will provide new insights for screening high-risk population, graded management, and personalized prevention, which has important significance for public health.

心脑血管疾病是我国居民的首要死亡原因。近年来,心脑血管疾病的发病率和患病率持续上升,以人群为对象的危险因素干预面临着重大挑战,个体化的风险预测成为疾病预防控制的新趋势。在生物医学大数据不断涌现的背景下,如何整合高维遗传数据和已有生物学信息,构建更加精确的疾病风险预测模型亟待研究。本项目以贝叶斯多水平模型为基础,通过整合高维遗传数据、复杂交互作用和已有生物学信息,提出一种新的疾病风险预测模型构建方法,并开发专用的分析软件。同时,本项目将利用在重大国际合作项目资助下获得的缺血性脑卒中病例对照各2000人的基线数据和492个相关基因测序的高维遗传数据,整合已有生物学先验信息,建立中国人群缺血性脑卒中风险预测的新模型。本项目的完成将为风险预测模型的构建奠定新的理论和方法基础,并提供新的分析软件。同时,也将为我国缺血性脑卒中高危人群筛查、分级管理与个体化预防提供新的思路,具有重要的公共卫生意义。

项目摘要

在生物医学大数据不断涌现的背景下,采用新的统计模型和分析方法,建立精准有效的疾病风险预测模型,对个体的疾病发病风险情况进行准确的估计和预测,以实施个体化预防是目前国内外公共卫生领域研究的热点方向。基于高维遗传数据,提出疾病风险预测模型构建的新方法是统计学研究和临床研究亟待解决的问题。本项目以贝叶斯多水平模型为基础,创新性的提出了sipke-and-slab混合双指数先验分布,通过发展新的cyclic coordinate descent快速算法,初步构建了高维遗传数据下疾病风险预测建立的贝叶斯理论体系,分别提出了sipke-and-slab lasso GLMs和sipke-and-slab lasso Cox方法。相关方法突出的优势体现在:(1)采用了sipke-and-slab混合双指数先验分布,通过使得与结局变量无关的参数直接压缩为0,在参数估计的过程中实现变量选择;(2)对大效应的参数采取弱的压缩,准确估计与结局变量相关联的参数;(3)有效控制假阳;(4)显著提高了模型的预测效能。在应用方面,我们以公开发表的乳腺癌,血癌数据和TCGA的卵巢癌等数据检验所提出方法的有效性,分析结果表明在偏差统计量(deviance),模型误差(MSE),曲线下面积(AUC),误判率(Misclassification),;偏似然函数(Partial log-likelihood),C指数(C-index)等方面,本项目提出的方法均优于常用的lasso方法。上述相关方法的建立为高维数据的疾病风险模型构建奠定了新的方法学基础,促进了贝叶斯方法在高维数据研究领域的发展。此外,在本项目的资助下,我们还提出了基于自适应交叉验证策略的基因标签建立验证的新方法。该方法将基因标签的发现和验证融入在一个自适应的交叉验证程序中,充分利用数据的信息,相关研究为基因标签的发现和验证提供的新的技术参考。.在该项目的资助下,已发表与项目紧密相关的SCI论文5篇,其中两篇为学科内TOP期刊。另外,发表国际学术会议论文1篇(分组报告),国内学术会议论文3篇(2人次分组报告)。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
4

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
5

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019

汤在祥的其他基金

相似国自然基金

1

贝叶斯框架下的叶片光合模型-数据整合方法研究

批准号:31900304
批准年份:2019
负责人:肖怡
学科分类:C0210
资助金额:24.00
项目类别:青年科学基金项目
2

高维数据的非参数经验贝叶斯方法

批准号:11201327
批准年份:2012
负责人:姜文华
学科分类:A0402
资助金额:22.00
项目类别:青年科学基金项目
3

基于贝叶斯多水平潜变量模型的血糖时变因子构建方法研究

批准号:81402761
批准年份:2014
负责人:孙宏鹏
学科分类:H3011
资助金额:23.00
项目类别:青年科学基金项目
4

高维遗传数据预测模型构建中组群结构信息整合的新方法及其应用研究

批准号:81773541
批准年份:2017
负责人:汤在祥
学科分类:H3011
资助金额:55.00
项目类别:面上项目