Studying the effect of an intervention or a treatment by comparing two populations is often encountered in biomedical research, economy and finance, engineering and environmental sciences and other fields. The evaluation of treatment effect must be based on relevant data and statistical analysis. However, the observed data usually has complex structure due to the realistic conditions and particularities of the problems, which motivates us to develop adaptive semiparametric modeling and inferences for the treatment effect. In this project, we will study the approaches of evaluating the treatment effect from various angles. Semiparametric models are constructed to describe the treatment effect and various indices with straightforward interpretations are also developed. The corresponding estimation methods are investigated for complex data. Besides, the auxiliary information, such as the connections of two samples and public data set, is used effectively to improve the estimation. Both theoretical and numerical studies will be conducted to assess the performances of the proposed methods. At last, applications of the proposed methods with suggestions and supports for the decision-makers will be illustrated.
在生物医学、经济金融、工程技术、环境科学以及政府统计等领域中经常遇到通过比较两个总体的差异评价治疗影响的问题,而治疗影响的评价离不开相关的数据和科学的数据分析方法。由于现实条件的限制或者所研究问题的特殊性,使所观察到的数据结构复杂,导致传统的统计分析方法失效。因此在本项目的研究中,将针对治疗影响的评价问题,创新地发展出适应于复杂数据的半参数建模理论和统计推断方法。一方面,深入研究治疗影响的评价方式和方法,从不同的角度出发,提出准确刻画两个总体差异的半参数模型和多种治疗影响指标。另一方面,为了有效地估计模型中的参数,充分利用两样本间的联系和公共数据集中的辅助信息,提出改进治疗影响的估计效率和精度的方法。在这个研究过程中,通过理论探索和数值模拟实验相结合的方式,发展出重要的复杂数据下的半参数统计推断方法,并将方法应用到实际问题中,为相关领域的决策者提供科学的建议和理论的支持。
课题负责人已完成论文8篇,其中3篇分别发表于《Statistica Sinica》,《Statistics in Medicine》和《Statistics and Its Interface》;1篇已被《Biometrics》接收;1篇论文在《Computational Statistics and Data Analysis》二审中;另外还有3篇论文已投稿于国际统计期刊。由于现实条件的限制,获取的数据往往呈现数据信息不完整、个体抽样概率不等或者数据来源多样性等复杂结构特点,从而给统计推断带来挑战。本项目针对几种常见的复杂数据结构展开深入研究,解决了复杂数据下半参数模型的估计和治疗影响的统计推断问题。首先以右删失数据为例研究了剩余寿命分位数的估计方程方法,该方法对生存分布并没有做具体假定,且对于左阶段数据、长度偏差数据等都适用;其次针有偏抽样下的不可忽略缺失数据建立了广义估计方程估计(GMM)的一般理论框架,同时解决了不可忽略缺失数据下的半参数模型的可识别性问题,在半参数抽样概率模型假设下,给出了所有参数的GMM估计。该方法相对于调查新的样本估计冗余参数,更容易实现,且对于几种常见的治疗影响指标均适用,因此具有广泛的应用范围;第三针对多来源数据集,本项目提出一种半参数模型的整合分析方法,该方法能够有效利用各部分数据集,充分挖掘数据集中的相似性和差异性,在强分层假设下实现变量选择,同时允许不同数据集上变量的影响程度不同,因此能够更加准确地评价协变量的影响,进而更加全面地评价治疗影响。在上述研究过程中,建立了估计的大样本性质,给出了相应的算法,并进行了一系列数值模拟验证了方法的有限样本性质,最后将方法分别应用于HIV艾滋病数据集、棒球运动员收入数据集、TCGA的皮肤黑色素瘤数据集和非小细胞型肺癌数据集等的分析中,并得到了一些有意义的结论。通过该项目的研究,发展出几种典型复杂结构数据的半参数建模和统计推断方法,且所提出的方法适用性广、灵活性高,丰富了几种常见的治疗影响指标的研究成果。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究
气载放射性碘采样测量方法研究进展
视网膜母细胞瘤的治疗研究进展
复杂多元数据的半参数统计推断
复杂数据下含指标项半参数模型结构的统计推断及应用
复杂数据下带有形状约束的半参数模型统计推断
复杂数据半参数模型的稳健统计推断研究