广义提升模型和机器学习下基于逆概率加权的纵向数据因果推断研究

基本信息
批准号:81872719
项目类别:面上项目
资助金额:58.00
负责人:王素珍
学科分类:
依托单位:潍坊医学院
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:石福艳,吕军城,孟维静,王强,李娟,孙娜,许小珊,黄璐,马洁
关键词:
广义提升模型因果推断逆概率加权倾向指数机器学习
结项摘要

Inference for the causal effect modeling with longitudinal data is challenging because these kinds of data contain confounding factors which could inevitably bias the relationship between exposure and outcomes. The inverse probability weighting methods based on propensity score can theoretically eliminate these confounds for all observed covariates. However, accurate estimation of propensity scores is impeded by many groups of treatments and large numbers of covariates, uncertain nonlinear functional forms for their associations with treatment selection, and other problems such as exposure misclassification and the data missing of covariates. How to get the optimal propensity score model is becoming a key issue. This study will try to use modern statistical technique to overcome these obstacles for the multiple groups of longitudinal data from clinical cancer patients. Firstly, machine learning theory and spectral clustering algorithm will be taken to correct the exposure misclassification. Secondly, multiple imputations by chained equations will be used to impute in the missing data of covariates. Thirdly, the optimal model of propensity score, which could capture the complicated relationship between covariates and exposures by using generalized boosted model combined with machine learning theory, will be fitted to estimate the accurate inverse probability weighting. And then weighting will be added to the individuals of different groups to eliminate confounding bias among multiple groups and the unbiased estimation of the causal effect will be obtained. The study aims to dig out the principles and implementation methods of unbiased causal inference of longitudinal data based on inverse probability of treatment weighting estimated with generalized boosting model and machine learning methods.

多组纵向数据中的混杂偏倚可能严重扭曲暴露与结局之间的关系,因而对该类数据的因果推断往往具有挑战性。理论上,基于倾向指数的逆概率加权法可以消除协变量引起的混杂偏倚。然而,随着处理组数的增大和协变量的增多,暴露错分及协变量缺失导致数据错误的可能性加大,协变量与暴露之间也呈现出复杂的非线性关系,令倾向指数的精确估计受到很大限制,倾向指数最佳模型的选择成为关键性问题。本项目拟从多组肿瘤患者纵向数据入手,通过新统计技术解决以上问题。采用机器学习理论和谱聚类算法纠正暴露错分、链式方程多重填充处理协变量缺失,得到无数据错误样本;对该样本应用广义提升模型和机器学习方法处理协变量与暴露间的复杂关系,构造倾向指数最佳估计模型,估算准确逆概率权重,并为不同组个体加权以控制混杂偏倚,对因果效应做出无偏估计。项目旨在探究广义提升模型和机器学习方法下基于逆概率加权法的纵向数据因果推断效应无偏估计理论依据与实现方法。

项目摘要

纵向数据因果推断研究中,由于数据未经随机化,暴露于不同处理组的个体特征差别很大,组间协变量的分布不均衡,因果效应的估计极易出现偏倚,致使因果推断变得非常复杂。.倾向评分(Propensity score,PS)作为消除协变量所致混杂偏倚的重要方法,近年来已经得到了研究者的共识。尤其在消除多对比组间协变量引起的偏倚方面,基于PS的逆概率加权法(IPTW)起到了非常好的作用。然而,随着处理组数的增大和组间协变量的增多,协变量与暴露之间呈现复杂的非线性关系,传统的PS线性模型难以捕捉这些关系,加之纵向数据中常见的协变量缺失,致使PS估计模型的选择变得非常困难,从而导致协变量对PS及IPTW的影响难以确定、IPTW实施后组间协变量的均衡性评价难度加大、因果效应估计目标的传统方法受到挑战等一系列问题,限制了PS的应用。.本项目从肿瘤患者纵向数据入手,结合Monte Carlo模拟,对多对比组估计目标的选择、偏倚来源确定、协变量缺失值填充、PS最优模型的构建、基于广义提升模型GBM及机器学习的IPTW降维方法、因果效应的无偏估计和推断方法等展开了研究。.结果表明:估计目标为平均处理效应ATE或接受处理的平均处理效应ATT均需考虑协变量不均衡性的影响,以实现无偏估计。对PS模型的研究发现,采用GBM结合机器学习方法可有效捕捉协变量与暴露间的复杂非线性关系,构造最佳PS模型;对PS模型中协变量选择的研究发现,纳入与暴露和结局变量同时相关、或仅与结局变量相关的协变量,会增加PS模型的可靠性;协变量缺失对PS影响较大,MICE填补可有效弥补该影响;应用IPTW法对ATE和ATT进行估计可实现双稳健无偏估计。.本研究确定了GBM和机器学习捕捉协变量非线性效应,准确计算PS的意义,明确了协变量缺失值填充的重要性,探讨了应用IPTW后因果推断目标的估计方法,阐明了纵向数据因果推断处理效应无偏估计的理论依据,确定了基于GBM下IPTW法的因果推断效应无偏估计实现方法。对纵向数据处理和真实世界数据的挖掘具有重要意义。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

黄河流域水资源利用时空演变特征及驱动要素

黄河流域水资源利用时空演变特征及驱动要素

DOI:10.18402/resci.2020.12.01
发表时间:2020
3

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
4

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

王素珍的其他基金

批准号:81141112
批准年份:2011
资助金额:10.00
项目类别:专项基金项目
批准号:71063011
批准年份:2010
资助金额:22.00
项目类别:地区科学基金项目
批准号:81473071
批准年份:2014
资助金额:70.00
项目类别:面上项目

相似国自然基金

1

基于逆概率加权的食管癌高维动态代谢组数据分析及因果推断研究

批准号:81673271
批准年份:2016
负责人:张涛
学科分类:H3011
资助金额:45.00
项目类别:面上项目
2

纵向数据的广义推断

批准号:11126243
批准年份:2011
负责人:牟唯嫣
学科分类:A0402
资助金额:3.00
项目类别:数学天元基金项目
3

纵向数据因果推断中的双稳健半参数效应模型研究

批准号:81473071
批准年份:2014
负责人:王素珍
学科分类:H3011
资助金额:70.00
项目类别:面上项目
4

基于g-computation控制纵向数据未测混杂因素的因果推断模型构建及应用研究

批准号:81903416
批准年份:2019
负责人:陈永杰
学科分类:H3011
资助金额:19.00
项目类别:青年科学基金项目