In theory, methodology and applications, there exist many urgent problems on the statistical analysis of high-dimensional sparse semiparametric transformation models. The class of semiparametric models have the following common properties: the response variable is an unknown monotonically increasing transformation of life variable; the dimensionality of covariates is very high but that of significant covariates is very low; the distribution of random error can be arbitrary, which will greatly challenge the statistical inference. In addition, the life time data are usually censored, truncated or missed to some extend, which will further compound the inference difficult. In this project, we will study the following problems: (1) by virtue of approximation tecnique such as spline, local polynomial etc, we study the estimation of unknown parameters and functions in the high-dimensional sparse semiparametric transformation models. By extending the penalized estimating equation, generalized estimating equation, maximum likelihood, maximum marginal likelihood etc, we consider the model inference with the high-dimensional sparse data; (2) using the double-penalized likelihood methods and testing approaches, such as generalized likelihood ratio, empirical likelihood, Wald testing method, Boostrap etc, we study the statistical inference on the structural changes of such models; (3) we study above two problems with the missing data and measurement error data; (4) based on some regularity conditions, we study the asymptotic properties of all the statistical inference methods; (5) we will, at last, broaden the scope of the model applications.
高维稀疏半参数变换模型统计推断在理论、方法、应用等方面存在着诸多急需解决的问题。该类模型具有如下共同特点:响应变量是寿命变量的未知严格增变换函数,协变量维度高但显著维度较低,随机扰动项分布多样,这些特点给该类模型的统计推断带来很大挑战,再加上寿命数据往往受到不同程度的删失、截断或缺失,这进一步增加了研究难度。本课题拟解决如下问题:(1)借助惩罚估计方程、广义估计方程、极大似然、极大边际似然等模型选择方法和样条逼近、局部多项式等逼近技术,研究高维稀疏半参数变换模型中未知参数、未知函数的估计与变量选择问题;(2)利用双惩罚似然、广义似然比、经验似然、Wald检验、Boostrap等方法,研究该类模型结构的统计推断问题;(3)在变量存在缺失或测量误差情形下,研究以上两大问题;(4)研究所有如上统计推断方法的大样本性质;(5)进一步拓宽该类模型的应用范围。
随着地理信息、生物医药等应用领域的快速发展和数据采集工具的日益丰富,复杂数据的规模不断增大,新的数据类型不断涌现,亟须发展新的复杂数据统计分析。根据申请时的课题研究计划,基于高维/超高维数据、缺失数据、测量误差数据、序列自相关性数据、异方差数据等复杂数据,我们研究了相应数据的半参数统计建模及其统计推断问题。经过四年的努力,我们取得了如下研究成果:(1)基于B样条逼近和惩罚技术,研究了单指标模型、比例风险单指标模型和分位数单指标模型的变量选择与估计以及线性变换模型、部分线性变系数变换模型的独立性变量筛选问题;(2)基于B样条逼近技术和精确观测样本,研究了协变量带有测量误差的部分线性变系数变换模型的验证样本估计方程估计问题;针对纵向数据,我们研究了时间可变单指标模型的估计与时间检验问题以及部分线性单指标测量误差模型的估计问题;针对右删失寿命数据,研究了风险调整的测量误差寿命数据的在线监控问题,给出了相应的监控策略;(3)基于B样条逼近技术和缺失数据,研究了变系数变换模型、单指标模型的估计以及超高维线性模型的变量筛选与参数估计问题;(4)基于B样条逼近,针对部分线性单指标比例风险模型,我们研究了最大惩罚部分似然模型结构识别与估计问题;针对部分线性变系数变换模型,我们提出了最大双惩罚似然模型结构识别与估计问题;(5)针对序列相关数据,研究单指标类模型的统计推断问题,并且在检验不通过的情形下,研究了误差具有序列相关性的半参数模型的误差建模与估计问题;(6)针对异方差数据,研究了单指标、变系数ARCH-M模型的估计与模型结构检验问题;同时还研究了基于多异源数据总体规模的最大似然估计问题;(7)基于来自不同道路交通设计的非平衡数据,我们研究了道路交通设计最优化决策问题,提出了犹豫集概率统计决策选择模型及其决策方法;(8)把上述的统计建模与推断方法推广到临床医学、金融学等领域的应用问题。关于这些问题的研究不仅丰富了半参数模型的理论内容应用,而且也扩展了各类常见复杂数据的统计处理方法。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究
基于变系数半参数模型的高维数据统计分析
高维数据的半参数回归建模与统计分析
稀疏高维半参数模型的稳健统计推断
复杂纵向数据下半参数模型的统计分析