超高维病例队列数据的联合变量筛选研究

基本信息
批准号:11801567
项目类别:青年科学基金项目
资助金额:25.00
负责人:刘祎
学科分类:
依托单位:中国海洋大学
批准年份:2018
结题年份:2021
起止时间:2019-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:李刚,李蔚郁,张月芝,刘兆辉
关键词:
变量筛选病例队列设计删失数据生存数据高维协变量
结项摘要

Case-cohort design is one of the most widely used sampling strategies in large-scale, low-incidence cohort studies. Under this design, the covariate histories are ascertained only for the cases and for a relatively small subcohort that is a random sample from the original cohort, and the cost can be substantially reduced. Due to the complexity of practical problems, the data collected are often ultrahigh dimensional, and how to do statistical analysis effectively is of vital importance. Feature screening methods can select active variables quickly, however, there are very few case-cohort related studies in the literature. Moreover, the case-cohort design is a biased sampling, and how to make full use of the sampling information and obtain the corresponding theoretical properties pose new challenges for statisticians. This project is aiming to deal with ultrahigh dimensional case-cohort data, and using the inverse probability of selection weighted method to propose the efficient joint feature screening method in Cox proportional hazard model, additive hazard model and accelerated failure time model. Then, utilizing the modern statistical analysis technology, we establish the sure screening property of the proposed methods and evaluate the finite sample performance via numerical simulations, and extend the methods to the practical data analysis finally.

在大规模,低发病率的队列研究中,病例队列(case-cohort)设计是应用最广泛的抽样策略之一,其关键在于只对所有病例和某一随机抽取的子队列收集协变量,因此具有很好的成本效益。然而,由于实际问题的复杂性,收集到的数据往往是超高维的,如何有效对其进行统计分析非常重要。变量筛选方法能够快速挑选出重要变量,但是,文献中基于病例队列数据的相关研究非常少。而且,病例队列设计是有偏抽样,如何充分利用抽样信息并得到相应的理论性质给统计工作者提出了新的挑战。本项目拟针对超高维病例队列数据,利用逆概率选择加权方法,在Cox比例危险率模型、可加危险率模型和加速失效时间模型下提出有效的联合变量筛选方法。然后运用现代统计分析技术,从理论上证明所提方法的筛选相合性。最后,利用数值模拟研究其有限样本表现,并将研究方法应用到实际数据分析中。

项目摘要

高维生存数据,尤其是病例队列数据的特征筛选问题,由于删失和采样策略的复杂性,给数据分析带来了一定的挑战。在这个背景下,本项目主要研究了如下内容:第一,病例队列数据的联合变量筛选。针对COX比例危险率模型、可加危险率模型,研究了基于L0范数稀疏约束的变量筛选方法。第二,一般生存数据的联合变量筛选。研究了加速失效时间模型和转移模型的L0范数稀疏约束估计,并基于模型非零系数估计,得到重要变量的筛选结果。第三,复杂生存数据的变量筛选。基于Kolmogorov-Smirnov检验统计量,构造了半竞争风险数据终止事件和非终止事件的联合变量筛选方法。本项目从理论上证明了所提方法的筛选相合性,为实际数据分析提供了合适的方法,在理论和应用上都有重要意义。本课题在国内外学术期刊上发表学术论文8篇,项目培养在读研究生9名。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
3

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
4

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015
5

基于分形维数和支持向量机的串联电弧故障诊断方法

基于分形维数和支持向量机的串联电弧故障诊断方法

DOI:
发表时间:2016

刘祎的其他基金

批准号:61801438
批准年份:2018
资助金额:21.00
项目类别:青年科学基金项目

相似国自然基金

1

超高维数据的变量筛选方法

批准号:11371236
批准年份:2013
负责人:朱利平
学科分类:A0402
资助金额:55.00
项目类别:面上项目
2

病例队列设计中几种半参数模型的变量选择

批准号:11701571
批准年份:2017
负责人:曹永秀
学科分类:A0403
资助金额:18.00
项目类别:青年科学基金项目
3

基于稳健估计方程的联合均值协方差分析及超高维变量筛选

批准号:11801466
批准年份:2018
负责人:吕晶
学科分类:A0402
资助金额:26.00
项目类别:青年科学基金项目
4

超高维生存数据变量筛选和选择中若干问题的研究

批准号:11501573
批准年份:2015
负责人:陈晓林
学科分类:A0403
资助金额:18.00
项目类别:青年科学基金项目