Metabonomics technology undoubtedly provides new methods for prevention and early diagnosis of complex diseases. However, due to problems in experimental design and data analysis, its application in biomedical field has been badly influenced. In experimental design, most studies focus on qualitative phenotypes (illness or health) using case-control or cross-sectional design, and few adopts prospective design concerning multiple quantitative phenotypes. In data analysis, traditional statistical analysis is easily to be trapped into overfitting problem, and lacks the appropriate statistical analysis strategy by incorporating the metabolic regulation network or pathway information for the the condition of multi-quantitative phenotypes. In the framework of multi-quantitative disease and prospective nested design, together with bayesian variable selection and PLS regression analysis, this project propose a novel method Pathway based Bayesian variable selection (PBVS) by incorporating the pathway information from online databases, so as to select the related pathway and key small molecular metabolites, by taking metabolic syndrome as example. The goal of this research is to construct "metabolomics prospective nested design and statistical analysis strategy for multi-quantitative disease based on bayesian variable selection", and provides new ideas and statistical methods for metabolomics study, so as to improve the scientificity and practical values of metabolomics.
代谢组学技术无疑为复杂疾病的预防和早期诊断提供崭新方法。然而,因在试验设计和数据分析方面存在诸多问题,影响其在生物医学领域的推广应用。试验设计上,多数是针对质量表型(有病或无病)采用病例对照研究或横断面分析,缺乏针对多数量表型的前瞻性研究设计;数据分析上,传统统计分析容易出现过拟合问题,缺乏以代谢调控网络或通路为单位分析其与多数量表型的统计分析策略。本项目在疾病数量表型观和队列中前瞻性巢式设计框架下,基于贝叶斯变量选择和PLS回归分析,构建结合生物通路信息的通路和代谢物贝叶斯变量选择模型(PBVS),并以代谢综合征为例,确定代谢综合征早期识别的代谢通路和关键小分子代谢组生物标志物。研究目标是构建"多数量表型复杂疾病的代谢组学前瞻性巢式设计及结合生物通路的贝叶斯变量选择方法",为充分挖掘多数量表型复杂疾病的代谢组标志物提供新的思路和新的统计分析方法,提高代谢组学的科学性和实用价值。
本项目主要完成如下工作:(1)代谢性疾病队列、生物标本库和代谢组学数据库建设:依托山东肥城食管癌队列,建立食管癌生物标本库和代谢组学研究平台。使用UPLC-QTOF/MS完成代谢组学检测。(2)复杂代谢性疾病纵向队列数据分析和高维统计分析方法研究:根据高维复杂代谢组学和队列设计的纵向数据特征和分析需求,开展队列纵向数据和高维组学数据的生物统计方法研究。围绕纵向数据和“高维灾难”组学数据,通过大量的统计模拟试验和实际数据分析,研究了多种数据分析方法的适用范围和特点。主要包括:基于Cross-lagged通径分析的研究因果推断方法和应用;提出了一种贝叶斯网络的简化建模方法用于因果推断研究,并通过非酒精性脂肪肝和代谢综合征的双向因果研究进行验证;模糊聚类法在动态设计组学数据趋势聚类中的应用。(3)复杂代谢性疾病队列的应用研究:食管癌高发区人群筛查的代谢组学研究,筛选出41个差异代谢物,并以此建立随机森林的食管癌筛查模型。传统危险因素(包括年龄、性别、BMI、收缩压、吸烟、饮酒)的外部预测ROC面积AUC=0.642,代谢组筛查模型外部预测的AUC=0.756,联合传统危险因素的AUC=0.791。代谢组筛查模型在食管炎、不典型增生和原位癌以上的AUC分别为0.706、0.774和0.857。本研究可以快速、便捷的筛选出食管癌高发人群,缩小食管癌筛查的范围,有效提高了食管癌高发区全人群筛查的效率,大大降低了筛查成本。食管癌临床早期诊断的血清代谢组学研究,筛选出6个代谢通路16个显著的代谢组标记物,其中3个代谢物与癌症分期和进展显著关联;进一步建立随机森林早期诊断模型,外部验证AUC为0.895,灵敏度0.850,特异度0.905。原位癌、I/II早期食管癌和III期食管癌的AUC分别为0.881、0.881和0.929,具有良好的临床应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
硬件木马:关键问题研究进展及新动向
转录组与代谢联合解析红花槭叶片中青素苷变化机制
基于贝叶斯变量选择的生物标志物筛选方法与策略研究
动态离散选择模型的贝叶斯估计与变量选择
统计因果推断及贝叶斯网络
稀有突变和复杂疾病遗传关联的贝叶斯方法的研究和应用