终端抽样设计及其在生存分析中的应用

基本信息
批准号:11671097
项目类别:面上项目
资助金额:48.00
负责人:郁文
学科分类:
依托单位:复旦大学
批准年份:2016
结题年份:2020
起止时间:2017-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:郑明,何其祥,黄达,沈娟,吴若凡,李毅琳,吴明哲
关键词:
估计效率半参数模型生存数据两阶段队列抽样终端抽样
结项摘要

In both traditional medical statistics and modern big data analysis, large cohort studies often appear and receive much attention. Usually it is prohibitively expensive and time consuming to collect covariates information on all the subjects involved in such large cohorts. Thus, two-phase cohort sampling designs are used to significantly reduce the cost on data collection. Commonly used two-phase cohort sampling designs include case-cohort sampling, case-control sampling and nested case-control sampling. The statistical inference methods with these three designs are extensively studied by the existing literature under various models, and some efficiency improving approaches based on data analysis techniques are also provided. However, little existing literature has tried to improve the estimating efficiency with comparable sample size through the sampling designs in the second phase. In this project, we propose a new idea for the two-phase cohort sampling designs, which could be more efficient than the existing ones. Based on the proposed idea, we give out proper sampling designs for different kinds of survival data. Moreover, the likelihood method and the inverse probability weighing approach are applied to analyze the data drawn by the new sampling design under several commonly used semiparametric survival models. The proposed idea improves the efficiency in terms of the design itself, and has promising potential in application. The research of the project complements the existing statistical analysis techniques for large scale data.

无论是传统的医学统计,还是现代的大数据分析,大规模队列研究都非常普遍和必须,但此类队列研究常常需要花费大量的金钱与时间来测量所有研究个体的自变量信息。两阶段队列抽样方法可以大幅降低抽样规模,减少抽样成本。常用的两阶段队列抽样包括病例-队列抽样、病例-对照抽样以及巢式病例-对照抽样。现有文献对于这三种抽样设计在各种模型假设下的统计推断以及基于数据分析技术的效率提升进行了广泛地研究,而在不增加抽样规模的前提下,从抽样设计本身出发来提升统计推断效率的研究却鲜有人为之。本项目提出一类不同于传统设计的新的两阶段队列抽样设计思想,针对若干种不同类型的生存数据设计与之相适应的抽样方法,并在一些常用的生存分析半参数模型假设下,结合似然与逆概率加权技术为新抽样设计所获得的数据提供效率更高的统计推断方法。新抽样方法效率的提高来源于抽样设计本身,其应用空间很大,本项目的研究将进一步丰富大规模数据处理的分析手段。

项目摘要

在医学统计和大数据分析中,大规模队列研究有普遍的应用。基于大规模队列的两阶段队列抽样因其可以大幅降低抽样规模、减少抽样成本,成为大规模队列研究中的常用数据收集技术。常用的两阶段队列抽样设计及其相应数据分析技术在现有文献中已有广泛研究。本项目提出了一类新的两阶段队列抽样设计,其主要思想是二次抽样的入样概率依赖于样本的跟踪时间,且与之成正比,故称之为终端抽样设计。. 在本项目研究期间,项目负责人与团队成员依照项目计划开展研究工作,在一系列相关的研究课题中取得进展与成果。研究方面,具体成果如下。首先,项目团队在线性变换模型下设计了终端抽样设计数据的系数估计与变量选择方法,给出了估计与变量选择方法的大样本性质,验证了终端抽样设计的有效性,相关成果发表于国际主流统计学术期刊TEST上。其次,项目团队讨论了终端抽样设计下的稳健推断方法,既在模型错误假定时基于终端抽样设计数据的估计与检验方法,相关成果发表于国际主流统计学术期刊Statistics & Probability Letters上。最后,项目团队在项目资金的支持下还开展了一些相关的研究工作,包括选择性偏差数据处理问题与双侧截断数据回归分析等,相关成果发表在国际主流统计学术期刊Journal of Applied Statistics和国际顶级统计学术期刊JASA上。人才培养方面,项目资金辅助了培养了博士研究生6人、硕士研究生1人。项目成员也多次参加国内外学术会议,报告研究成果,并与国内外同行进行了密切的互动与交流。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
3

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
4

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
5

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

DOI:10.13465/j.cnki.jvs.2020.09.026
发表时间:2020

郁文的其他基金

批准号:11101091
批准年份:2011
资助金额:20.00
项目类别:青年科学基金项目

相似国自然基金

1

生存分析中ODS抽样及相关统计方法研究

批准号:11171263
批准年份:2011
负责人:刘妍岩
学科分类:A0401
资助金额:45.00
项目类别:面上项目
2

生存分析中两阶段抽样的统计推断方法研究

批准号:11501578
批准年份:2015
负责人:余吉昌
学科分类:A0403
资助金额:18.00
项目类别:青年科学基金项目
3

多步伞抽样算法及其在膜-肽相互作用中的应用

批准号:11471213
批准年份:2014
负责人:胡丹
学科分类:A0504
资助金额:60.00
项目类别:面上项目
4

容器安全加固及其在终端安全保护中的应用研究

批准号:61802398
批准年份:2018
负责人:雷灵光
学科分类:F0205
资助金额:27.00
项目类别:青年科学基金项目