Case-cohort design is one of the most widely used sampling strategies in large-scale, low-incidence cohort studies. Under this design, the covariate histories are ascertained only for the cases and for a relatively small subcohort that is a random sample from the original cohort, and the cost can be substantially reduced. Due to the complexity of practical problems, the data collected are often ultrahigh dimensional, and how to do statistical analysis effectively is of vital importance. Feature screening methods can select active variables quickly, however, there are very few case-cohort related studies in the literature. Moreover, the case-cohort design is a biased sampling, and how to make full use of the sampling information and obtain the corresponding theoretical properties pose new challenges for statisticians. This project is aiming to deal with ultrahigh dimensional case-cohort data, and using the inverse probability of selection weighted method to propose the efficient joint feature screening method in Cox proportional hazard model, additive hazard model and accelerated failure time model. Then, utilizing the modern statistical analysis technology, we establish the sure screening property of the proposed methods and evaluate the finite sample performance via numerical simulations, and extend the methods to the practical data analysis finally.
在大规模,低发病率的队列研究中,病例队列(case-cohort)设计是应用最广泛的抽样策略之一,其关键在于只对所有病例和某一随机抽取的子队列收集协变量,因此具有很好的成本效益。然而,由于实际问题的复杂性,收集到的数据往往是超高维的,如何有效对其进行统计分析非常重要。变量筛选方法能够快速挑选出重要变量,但是,文献中基于病例队列数据的相关研究非常少。而且,病例队列设计是有偏抽样,如何充分利用抽样信息并得到相应的理论性质给统计工作者提出了新的挑战。本项目拟针对超高维病例队列数据,利用逆概率选择加权方法,在Cox比例危险率模型、可加危险率模型和加速失效时间模型下提出有效的联合变量筛选方法。然后运用现代统计分析技术,从理论上证明所提方法的筛选相合性。最后,利用数值模拟研究其有限样本表现,并将研究方法应用到实际数据分析中。
高维生存数据,尤其是病例队列数据的特征筛选问题,由于删失和采样策略的复杂性,给数据分析带来了一定的挑战。在这个背景下,本项目主要研究了如下内容:第一,病例队列数据的联合变量筛选。针对COX比例危险率模型、可加危险率模型,研究了基于L0范数稀疏约束的变量筛选方法。第二,一般生存数据的联合变量筛选。研究了加速失效时间模型和转移模型的L0范数稀疏约束估计,并基于模型非零系数估计,得到重要变量的筛选结果。第三,复杂生存数据的变量筛选。基于Kolmogorov-Smirnov检验统计量,构造了半竞争风险数据终止事件和非终止事件的联合变量筛选方法。本项目从理论上证明了所提方法的筛选相合性,为实际数据分析提供了合适的方法,在理论和应用上都有重要意义。本课题在国内外学术期刊上发表学术论文8篇,项目培养在读研究生9名。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
硬件木马:关键问题研究进展及新动向
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于分形维数和支持向量机的串联电弧故障诊断方法
超高维数据的变量筛选方法
病例队列设计中几种半参数模型的变量选择
基于稳健估计方程的联合均值协方差分析及超高维变量筛选
超高维生存数据变量筛选和选择中若干问题的研究