To analyze the ultrahigh dimensional survival data, one appealing method is the two-stage approach. First, a computationally efficient screening method is applied to reduce the dimensionality to a moderate size, and then simultaneous variable selection and parameter estimation are achieved by the more elaborative penalized means. Due to the coexistence of censoring and ultrahigh dimensionality, the research about variable screening for survival data is very challenging and little. This project will study a method based on the L0 sparsity constraint estimator and the according implementation algorithm. Different from the existing marginal regression or correlation screening for ultrahigh dimensional survival data, the proposed procedure could naturally take the joint effects of covariates into consideration. At the stage of variable selection, this project will study the penalized methods via seamless-L0 and rLASSO penalty functions. Furthermore, the developed methods will be generalized to the variable selection for survival data with interactions. In addition to the theoretical properties, this project will also verify the improved performance of the proposed methods compared to the existing approaches under the finite samples, and apply the proposed methods to real data analysis.
分析超高维生存数据比较流行的做法是两阶段分析:首先,利用计算有效的筛选方法把维数减少到适当的水平;然后,通过更精细的惩罚方法进行同步变量选择和参数估计。由于删失和超高维的共同存在给统计推断带来的挑战,目前关于超高维生存数据变量筛选的研究还比较少。本项目拟研究一种基于L0稀疏约束估计的变量筛选策略及其具体的实施算法。不同于边际回归或相关性的方法,拟研究的方法能够自然地考虑到协变量的联合效应。在变量选择阶段,本项目拟研究基于seamless-L0和rLASSO惩罚函数的惩罚方法,并拟将相应方法推广到协变量具有交互效应时生存数据的变量选择问题。本项目在给出相应方法理论性质的同时,还将通过数值模拟比较所研究方法对现有方法的改进,并把研究成果应用到实际数据分析中。
在生存数据分析中,人们经常会遇到协变量是高维或超高维的情形。此时,删失和高维的共同存在给生存数据的分析带来了一定的挑战。在这个背景下,本项目研究了如下内容:第一,联合特征筛选方法。对Cox比例危险率模型、加性危险率模型和加速失效模型,研究了基于L0稀疏约束估计的联合特征筛选方法,并给出了可行的求解约束估计的算法。在一定条件下,证明了具体方法的确定性筛选性质。模拟研究也证实了该类联合特征筛选方法相对于边际筛选方法的优良性。第二,稳健的边际筛选方法。提出并研究了两类基于距离相关的无模型的、稳健的边际特征筛选方法。通过度量利用各自分布函数变换后的生存时间和协变量之间的距离相关,刻画了生存时间和协变量之间的相关性。进一步地,利用生存时间的Kaplan-Meier估计和协变量的经验分布函数得到新的距离相关的估计。另一类方法是通过度量协变量和生存时间的若干分位数的距离相关,衡量协变量和生存时间之间的相关性。进一步,利用生存时间的Kaplan-Meier估计得到分位数及距离相关的估计。理论上证明了这两类方法的确定性筛选性质,模拟上验证了所提方法相对于现有方法的优良性。第三,条件的特征筛选方法。根据以往的经验或研究,研究者经常会知道某个或某些协变量是真正对生存时间有影响的。在特征筛选的过程中,应该利用这部分信息。研究了两类基于投影的相关条件特征筛选方法;研究了基于条件距离相关的条件特征筛选方法;研究了基于逆概率删失加权的Cramer-von Mises类型相关性的条件特征筛选方法。理论上证明了所提出条件特征筛选方法的确定性筛选性质,并通过数值模拟验证了条件筛选方法优良的有限样本性质。本项目取得的研究成果是丰富的,且具有一定的应用价值。本项目共完成论文15篇,其中9篇已正式或在线发表,1篇接受,5篇正处于审稿阶段,还有多项研究正在进行中。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
基于分形维数和支持向量机的串联电弧故障诊断方法
基于二维材料的自旋-轨道矩研究进展
超高维数据的变量筛选方法
生存分析中变系数模型的超高维协变量的筛选研究
超高维病例队列数据的联合变量筛选研究
删失数据超高维共线性模型的变量选择