In practical problems, interactive models which contain both main effects and interaction effects can explain the relationship between variables more comprehensively. They have been widely used in many fields, such as biomedicine, social sciences. With the rapid development of science and technology, the emergence of high dimensional data brings great challenges to the statistical analysis of interactive models. The proposed variable selection methods for interactive models are mainly focus on complete data, no methods have been developed for survival data in the literature. In this project, we will systematically study variable selection for interactive models in high dimensional survival data. From the perspectives of penalty log-partial likelihood function, forward selection method and independent feature screening, we will propose effective methods to select important main effects and important interaction effects simultaneously. Furthermore, we will establish the theoretical properties of the proposed procedures, such as consistency of model selection, sure screening property. The finite sample performance of the proposed methods will be evaluated by simulation studies and then we apply the proposed methods to clinical trials.
在实际问题中,考虑主效应和交互效应的交互模型能更全面的解释变量间的关系,它已广泛地应用到生物医学、社会科学等领域。随着科技的突飞猛进,高维数据的涌现给交互模型的统计分析带来了巨大的挑战。目前,对高维数据下交互模型变量选择的研究主要针对完全数据,对生存数据的研究还未见文献报道。本项目将系统地研究高维生存数据下交互模型的变量选择问题,从惩罚对数偏似然函数、向前选择法、独立特征筛选的角度,提出快速有效的变量选择方法来选取重要主效应和重要交互效应。进一步,构建相应的理论性质,如模型选择的相合性、确定筛选性等。最后,通过数值模拟研究这些方法在有限样本下的表现,并将其应用到临床试验的研究中。
在医学、遗传学、经济学等领域的研究中,人们经常关心某些变量对感兴趣事件的影响。在很多实际问题中,变量与变量之间的交互作用也会对感兴趣事件产生重要影响,同时考虑主效应和交互效应的交互模型能更全面地刻画变量之间的关系,它已经广泛地应用到生物学、医学、社会科学等众多领域。近些年,随着科技的发展和网络的发达,高维数据大量涌现。对于这类数据,主效应个数p较大,二阶交互效应个数p(p+1)/2更大,如果把所有主效应和交互效应都加入模型会使得备选模型过于庞大,因此需要建立快速有效的变量选择方法来选取对感兴趣事件有重要影响的主效应和交互效应。目前对此问题的研究主要集中于完全数据,对生存数据的研究还非常少。本项目主要针对超高维生存数据建立快速有效的变量选择方法来选取重要主效应和重要交互效应。具体包括:(1)对于超高维生存数据,研究重要主效应的选取问题。这里分别考虑右删失生存数据、区间删失生存数据和病例队列设计下的生存数据,分别针对不同的数据类型,建立了几种边际变量筛选方法。进一步,为了有效识别潜在重要主效应,且克服协变量强相关所带来的挑战,建立了几种条件变量筛选方法。这些方法均可以快速有效地选取对生存时间T有重要影响的那些重要主效应。(2)对于超高维生存数据,研究重要交互效应的选取问题。建立了几种不依赖于模型假设的变量筛选方法,这些方法可以快速有效地选取对生存时间T有重要影响的那些重要交互效应。在上述问题中,我们建立了快速有效的变量筛选方法,构建了相应方法的理论性质,进行了深入的模拟试验,最后将方法应用于临床医学等相关领域的数据分析。相关研究结果被整理成十余篇论文在国际知名统计学期刊发表,进一步完善了高维生存数据的理论和应用。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
基于一维TiO2纳米管阵列薄膜的β伏特效应研究
监管的非对称性、盈余管理模式选择与证监会执法效率?
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
特斯拉涡轮机运行性能研究综述
内生性下高维线性交互模型的变量选择
基于概率生成模型的高维数据变量选择
缺失响应数据下高维稀疏分位数回归模型的变量选择
高维纵向数据的若干稳健变量选择方法研究