It is one of the ultimate goals to identify the causality in philosophy, natural science, social science and medicine. Modern biomedical researches have generated big and confounded datasets. Thus the analysis on high dimensional biomedical data should focus on not only association, but also causality. The present research introduces the definitions of causal inference into a framework of random forests (RF). After adjusting for complex confounding effects, we will use the RF to estimate the causal effects and make the corresponding hypothesis testing. We will also study on how to construct the mediation network for multi-omics data. Based on the above methodological study, we aim to set up the steps and strategies for causal inference using machine learning-based methods. Extensive simulations and real world –omics or longitudinal datasets will be used to evaluate the performance of the proposed methods. The present study will provide the methodology, theoretical references, and software supports for the causal inference on complex datasets.
探讨事物之间的因果关系,一直是哲学、自然科学、社会科学、医学等几乎所有科学研究的最终目的之一。现代生物医学研究产生了大而混杂的数据,因而高维生物医学数据的分析,不能只求关联,不求因果。本研究在随机森林框架下,引入因果推断的概念,在控制了复杂混杂后,实现因果分析中的效应估计和假设检验;探讨多组学数据高维中介网络的构建方法。通过以上的方法学研究,实现基于机器学习的高维生物医学数据的因果推断。本研究采用理论推导建立相关方法,利用计算机模拟试验评价所提出方法的性质,并结合真实数据考察相应方法的实际表现和应用条件。课题的顺利实施将为复杂数据的因果推断分析提供理论依据、方法参考和软件支持,具有重大的科学意义和实用价值。
探索因果关系是生物医学研究的最终目的之一。传统因果推断多基于回归模型,需要较多假设。本研究将随机森林等机器学习方法引入因果推断领域,开展了方法学与应用研究,取得了一系列成果。研究主要围绕效应估计和网络构建两个角度展开。在效应估计方面:申请人首先提出了srRF和倾向性加权随机森林法,模拟研究表明,这两种方法较传统随机森林能更好地控制混杂因素;课题组进一步比较了基于反事实框架下的因果森林、因果MARS等方法用于估计个体处理效应时的表现,并针对随机对照研究中的个体处理效应,提出了一套处理效应异质性,并优化最佳治疗措施选择的策略,用于SPRINT和ACCORD两个大型心血管病研究中的个体处理效应估计及亚组识别;提出了针对纵向队列数据,通过历史随机森林进行特征筛选,结合联合建模进行个体精准预测的思路,用于COVID-19和H7N9病人预后预测,准确率令人满意;在解决混杂因素后,利用因果森林进行中介效应估计,可以便捷地处理复杂混杂和多维中介变量问题,进行直接效应、间接效应等因果推断中重要统计量的估计。在网络构建方面:提出了交互随机森林法,其对于一阶交互作用的识别好于目前最佳的迭代随机森林法;比较了经典随机森林以及两种改进随机森林iRafNet和dynGENIE3从基因表达数据中推断调控网络的能力;基于代谢组学数据,建立交互作用网络;提出了随机森林用于调控网络识别的分析策略。本研究也基于方法学研究成果,开发了多个免费软件,提供了公共网址,供研究者进行使用。本研究的顺利完成,促进了机器学习与因果推断的有机整合,取得的成果将有力推进健康医疗大数据领域分析方法和应用研究的发展。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
因果推断方法研究及在食品安全与生物医学中的应用
因果推断的统计方法
高维生物数据的PLS特征选择方法研究
高维不完全观察数据上的因果关系推断及其应用