In statistical field, interval-censored data, a special type of failure time data, occur more often nowadays and also has attracted more and more attention. On the other hand, due to their special structures, traditional statistical methods are no longer sufficient for their analysis. Therefore, the development of new and effective statistical models and methods has become a particularly important task. In addition, with the development of modern science and technology, high-dimensional data can be seen everywhere, and how to extract useful information, or variable selection from the statistical point of view, from these high-dimensional data has also become an important and essential task. This project will deal with or investigate these two tasks together. More specifically, we will study estimation and variable selection on several commonly used survival analysis models, including Cox model, additive hazards model, accelerating failure time model, linear transformation model and transformed hazards model, when one only observes high dimensional interval-censored data in the presence of informative censoring. In the study, some reasonable models will be developed to characterize the relationship between failure time and censored time, and penalty likelihood and penalty estimating equation tool will be used to derive some effective statistical inference methods, which will be applied to real data. The results to be obtained in this project will greatly advance the development of statistics and related fields.
在统计学研究中,区间删失数据作为一种特殊的失效时间数据已经成为众多学者研究的热点。由于数据本身结构特点,传统的统计方法就不足以处理这种数据的分析问题。这时,建立新的有效的统计模型就变得尤为重要。随着现代科技的发展,高维数据随处可见。如何从这种高维数据中提取出有用信息,或是从统计的角度进行变量选择受到了高度的重视。本项目主要研究高维的相依区间删失数据下几种生存分析模型的参数估计及变量选择问题,这些模型包括Cox模型、可加危险率模型、加速失效时间模型、线性转换模型和转换危险率模型。在具体的研究中将提出一些合理的模型假设来刻画失效时间和观测时间的关系,并在此基础上利用惩罚似然和惩罚估计方程工具来给出有效的统计推断方法,最后会将给出的方法应用到实际数据中。这些研究工作对统计学及相关学科的发展,都将起到推动作用。
区间删失数据广泛地出现在经济学、医学、社会学等多个重要领域,对该数据的处理是当今统计学研究中的一个热点问题。本项目主要研究了相依区间删失数据的回归分析,高维区间删失数据的变量选择,双重删失数据的回归分析,多元区间删失数据的统计分析以及区间删失数据的分层检验问题等。在相依区间删失数据的回归分析研究中,我们通过Copula模型或者frailty模型来刻画失效时间和观测时间的相关性,基于可加模型,加速失效模型以及线性转换模型等提出了新的估计方法,并讨论了估计量的大样本性质(相合性和渐近正态性)。针对高维区间删失数据,我们应用惩罚EM算法来处理变量选择问题,进而避免过拟合问题,并从理论上证明了估计量的Oracle性质。针对双重删失数据以及多元区间删失的统计分析问题,我们根据删失数据类型的特点给出相应的估计方法和估计量的极限性质。我们对区间删失数据的分层检验问题以及基于病例队列的区间删失数据的统计分析也进行了深入的研究。同时,我们还利用模拟分析和实际数据分析,来进一步说明上述方法的有效性。此外,在其他相关领域,我们的研究也取得了一定的科研成果。项目组所取得的研究成果丰富了统计学的理论与方法,为实际工作者提供了有价值的方法和建议。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
基于FTA-BN模型的页岩气井口装置失效概率分析
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
相依区间删失数据的统计分析
删失数据的回归分析
左截断区间删失数据的半参数回归分析及其应用
区间删失数据的半参数回归模型的有效估计方法