基于随机森林的高维生物医学数据因果推断方法研究

基本信息
批准号:81872709
项目类别:面上项目
资助金额:25.00
负责人:赵杨
学科分类:
依托单位:南京医科大学
批准年份:2018
结题年份:2020
起止时间:2019-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:谢璐,杨琳,尤东方,蔡晶晶,岳园萍,何文静
关键词:
中介分析因果推断随机森林
结项摘要

It is one of the ultimate goals to identify the causality in philosophy, natural science, social science and medicine. Modern biomedical researches have generated big and confounded datasets. Thus the analysis on high dimensional biomedical data should focus on not only association, but also causality. The present research introduces the definitions of causal inference into a framework of random forests (RF). After adjusting for complex confounding effects, we will use the RF to estimate the causal effects and make the corresponding hypothesis testing. We will also study on how to construct the mediation network for multi-omics data. Based on the above methodological study, we aim to set up the steps and strategies for causal inference using machine learning-based methods. Extensive simulations and real world –omics or longitudinal datasets will be used to evaluate the performance of the proposed methods. The present study will provide the methodology, theoretical references, and software supports for the causal inference on complex datasets.

探讨事物之间的因果关系,一直是哲学、自然科学、社会科学、医学等几乎所有科学研究的最终目的之一。现代生物医学研究产生了大而混杂的数据,因而高维生物医学数据的分析,不能只求关联,不求因果。本研究在随机森林框架下,引入因果推断的概念,在控制了复杂混杂后,实现因果分析中的效应估计和假设检验;探讨多组学数据高维中介网络的构建方法。通过以上的方法学研究,实现基于机器学习的高维生物医学数据的因果推断。本研究采用理论推导建立相关方法,利用计算机模拟试验评价所提出方法的性质,并结合真实数据考察相应方法的实际表现和应用条件。课题的顺利实施将为复杂数据的因果推断分析提供理论依据、方法参考和软件支持,具有重大的科学意义和实用价值。

项目摘要

探索因果关系是生物医学研究的最终目的之一。传统因果推断多基于回归模型,需要较多假设。本研究将随机森林等机器学习方法引入因果推断领域,开展了方法学与应用研究,取得了一系列成果。研究主要围绕效应估计和网络构建两个角度展开。在效应估计方面:申请人首先提出了srRF和倾向性加权随机森林法,模拟研究表明,这两种方法较传统随机森林能更好地控制混杂因素;课题组进一步比较了基于反事实框架下的因果森林、因果MARS等方法用于估计个体处理效应时的表现,并针对随机对照研究中的个体处理效应,提出了一套处理效应异质性,并优化最佳治疗措施选择的策略,用于SPRINT和ACCORD两个大型心血管病研究中的个体处理效应估计及亚组识别;提出了针对纵向队列数据,通过历史随机森林进行特征筛选,结合联合建模进行个体精准预测的思路,用于COVID-19和H7N9病人预后预测,准确率令人满意;在解决混杂因素后,利用因果森林进行中介效应估计,可以便捷地处理复杂混杂和多维中介变量问题,进行直接效应、间接效应等因果推断中重要统计量的估计。在网络构建方面:提出了交互随机森林法,其对于一阶交互作用的识别好于目前最佳的迭代随机森林法;比较了经典随机森林以及两种改进随机森林iRafNet和dynGENIE3从基因表达数据中推断调控网络的能力;基于代谢组学数据,建立交互作用网络;提出了随机森林用于调控网络识别的分析策略。本研究也基于方法学研究成果,开发了多个免费软件,提供了公共网址,供研究者进行使用。本研究的顺利完成,促进了机器学习与因果推断的有机整合,取得的成果将有力推进健康医疗大数据领域分析方法和应用研究的发展。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

多能耦合三相不平衡主动配电网与输电网交互随机模糊潮流方法

多能耦合三相不平衡主动配电网与输电网交互随机模糊潮流方法

DOI:10.13334/j.0258-8013.pcsee.190276
发表时间:2020
2

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

DOI:
发表时间:
3

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

DOI:10.11842/wst.20190724002
发表时间:2020
4

具有随机多跳时变时延的多航天器协同编队姿态一致性

具有随机多跳时变时延的多航天器协同编队姿态一致性

DOI:10.7641/CTA.2018.70969
发表时间:2018
5

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

DOI:10.7498/aps.68.20181682
发表时间:2019

赵杨的其他基金

批准号:71403099
批准年份:2014
资助金额:20.00
项目类别:青年科学基金项目
批准号:30901232
批准年份:2009
资助金额:19.00
项目类别:青年科学基金项目
批准号:81202049
批准年份:2012
资助金额:23.00
项目类别:青年科学基金项目
批准号:31460201
批准年份:2014
资助金额:50.00
项目类别:地区科学基金项目
批准号:71901188
批准年份:2019
资助金额:18.00
项目类别:青年科学基金项目
批准号:81772776
批准年份:2017
资助金额:58.00
项目类别:面上项目
批准号:81373102
批准年份:2013
资助金额:70.00
项目类别:面上项目
批准号:81500022
批准年份:2015
资助金额:18.00
项目类别:青年科学基金项目
批准号:81472440
批准年份:2014
资助金额:78.00
项目类别:面上项目

相似国自然基金

1

因果推断方法研究及在食品安全与生物医学中的应用

批准号:11771028
批准年份:2017
负责人:耿直
学科分类:A0403
资助金额:48.00
项目类别:面上项目
2

因果推断的统计方法

批准号:11171365
批准年份:2011
负责人:耿直
学科分类:A0403
资助金额:35.00
项目类别:面上项目
3

高维生物数据的PLS特征选择方法研究

批准号:61473329
批准年份:2014
负责人:游文杰
学科分类:F0603
资助金额:57.00
项目类别:面上项目
4

高维不完全观察数据上的因果关系推断及其应用

批准号:61572143
批准年份:2015
负责人:蔡瑞初
学科分类:F0607
资助金额:16.00
项目类别:面上项目