基于随机森林的高维生物医学数据因果推断方法研究

基本信息
批准号:81872709
项目类别:面上项目
资助金额:25.00
负责人:赵杨
学科分类:
依托单位:南京医科大学
批准年份:2018
结题年份:2020
起止时间:2019-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:谢璐,杨琳,尤东方,蔡晶晶,岳园萍,何文静
关键词:
中介分析因果推断随机森林
结项摘要

It is one of the ultimate goals to identify the causality in philosophy, natural science, social science and medicine. Modern biomedical researches have generated big and confounded datasets. Thus the analysis on high dimensional biomedical data should focus on not only association, but also causality. The present research introduces the definitions of causal inference into a framework of random forests (RF). After adjusting for complex confounding effects, we will use the RF to estimate the causal effects and make the corresponding hypothesis testing. We will also study on how to construct the mediation network for multi-omics data. Based on the above methodological study, we aim to set up the steps and strategies for causal inference using machine learning-based methods. Extensive simulations and real world –omics or longitudinal datasets will be used to evaluate the performance of the proposed methods. The present study will provide the methodology, theoretical references, and software supports for the causal inference on complex datasets.

探讨事物之间的因果关系,一直是哲学、自然科学、社会科学、医学等几乎所有科学研究的最终目的之一。现代生物医学研究产生了大而混杂的数据,因而高维生物医学数据的分析,不能只求关联,不求因果。本研究在随机森林框架下,引入因果推断的概念,在控制了复杂混杂后,实现因果分析中的效应估计和假设检验;探讨多组学数据高维中介网络的构建方法。通过以上的方法学研究,实现基于机器学习的高维生物医学数据的因果推断。本研究采用理论推导建立相关方法,利用计算机模拟试验评价所提出方法的性质,并结合真实数据考察相应方法的实际表现和应用条件。课题的顺利实施将为复杂数据的因果推断分析提供理论依据、方法参考和软件支持,具有重大的科学意义和实用价值。

项目摘要

探索因果关系是生物医学研究的最终目的之一。传统因果推断多基于回归模型,需要较多假设。本研究将随机森林等机器学习方法引入因果推断领域,开展了方法学与应用研究,取得了一系列成果。研究主要围绕效应估计和网络构建两个角度展开。在效应估计方面:申请人首先提出了srRF和倾向性加权随机森林法,模拟研究表明,这两种方法较传统随机森林能更好地控制混杂因素;课题组进一步比较了基于反事实框架下的因果森林、因果MARS等方法用于估计个体处理效应时的表现,并针对随机对照研究中的个体处理效应,提出了一套处理效应异质性,并优化最佳治疗措施选择的策略,用于SPRINT和ACCORD两个大型心血管病研究中的个体处理效应估计及亚组识别;提出了针对纵向队列数据,通过历史随机森林进行特征筛选,结合联合建模进行个体精准预测的思路,用于COVID-19和H7N9病人预后预测,准确率令人满意;在解决混杂因素后,利用因果森林进行中介效应估计,可以便捷地处理复杂混杂和多维中介变量问题,进行直接效应、间接效应等因果推断中重要统计量的估计。在网络构建方面:提出了交互随机森林法,其对于一阶交互作用的识别好于目前最佳的迭代随机森林法;比较了经典随机森林以及两种改进随机森林iRafNet和dynGENIE3从基因表达数据中推断调控网络的能力;基于代谢组学数据,建立交互作用网络;提出了随机森林用于调控网络识别的分析策略。本研究也基于方法学研究成果,开发了多个免费软件,提供了公共网址,供研究者进行使用。本研究的顺利完成,促进了机器学习与因果推断的有机整合,取得的成果将有力推进健康医疗大数据领域分析方法和应用研究的发展。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
4

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
5

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015

赵杨的其他基金

批准号:71403099
批准年份:2014
资助金额:20.00
项目类别:青年科学基金项目
批准号:30901232
批准年份:2009
资助金额:19.00
项目类别:青年科学基金项目
批准号:81202049
批准年份:2012
资助金额:23.00
项目类别:青年科学基金项目
批准号:31460201
批准年份:2014
资助金额:50.00
项目类别:地区科学基金项目
批准号:71901188
批准年份:2019
资助金额:18.00
项目类别:青年科学基金项目
批准号:81772776
批准年份:2017
资助金额:58.00
项目类别:面上项目
批准号:81373102
批准年份:2013
资助金额:70.00
项目类别:面上项目
批准号:81500022
批准年份:2015
资助金额:18.00
项目类别:青年科学基金项目
批准号:81472440
批准年份:2014
资助金额:78.00
项目类别:面上项目

相似国自然基金

1

因果推断方法研究及在食品安全与生物医学中的应用

批准号:11771028
批准年份:2017
负责人:耿直
学科分类:A0403
资助金额:48.00
项目类别:面上项目
2

因果推断的统计方法

批准号:11171365
批准年份:2011
负责人:耿直
学科分类:A0403
资助金额:35.00
项目类别:面上项目
3

高维生物数据的PLS特征选择方法研究

批准号:61473329
批准年份:2014
负责人:游文杰
学科分类:F0603
资助金额:57.00
项目类别:面上项目
4

高维不完全观察数据上的因果关系推断及其应用

批准号:61572143
批准年份:2015
负责人:蔡瑞初
学科分类:F0607
资助金额:16.00
项目类别:面上项目