Model misspecification is unavoidable in practice. However, existing literatures in generalized linear mixed model (GLMM) usually assume implicitly that the form of the true data generating process lies within a specific set of models, i.e. the model is correctly specified. Moreover, most of existing studies on model selection and model averaging in the field of GLMMs are focusing on the low dimensional problem within the framework of cluster specific design, where the design matrix of random effects is block-diagonal. However, in many situations the GLMMs under consideration have more general design and involve many covariates. To handle these concerns, current project is devoted to study the statistical inference problems in misspecified high-dimensional GLMMs with general design, within the framework of conditional inference. In specific, the asymptotic properties of penalized conditional likelihood estimators for general design GLMM will be studied under this scenario. Moreover, under current setting, a class of model selection criteria, i.e. conditional Akaike information criterion (cAIC) and joint-Akaike information criterion (jAIC) will be derived and the post-model-selection effects (i.e. asymptotic efficiency) of these criteria will be studied. Based on these results, the theoretical and methodological framework of model averaging will be extended and the optimal model averaging estimator for general design high-dimensional GLMM will be developed. The study on these problems will enrich the statistical inference theory in GLMMs, model selection and model averaging methodology. The results will also extend the use of these methods in applications.
模型误设定在实际工作中常无法避免。但现有的研究广义线性混合模型的工作常不同程度地假定模型设定是正确的。此外,已有的针对该模型的模型选择以及模型平均的研究均在低维和分组数据的背景下开展,此环境下随机效应的设计阵为分块对角阵。但在很多场合中,广义线性混合模型的研究常涉及较多的协变量以及更一般的设计阵。本项目拟在条件推断的框架下,研究模型误设定时一般设计下高维广义线性混合模型的统计推断。首先,本项目将在上述背景下研究广义线性混合模型中惩罚条件似然估计的渐近性质。其次,拟在该背景下推导一系列条件赤池信息准则和联合赤池信息准则,并研究它们选择模型时的渐近有效性。最后,基于上述结果,推广现有模型平均理论和方法,给出一般设计下高维广义线性混合模型的最优模型平均估计。上述工作的完成将促进广义线性混合模型统计推断理论的发展,也将丰富和拓展模型选择和模型平均的理论体系,并将有力拓宽这些方法的适用范围。
项目组围绕申请书和计划书开展了一系列创新研究,取得了多项研究成果和阶段性进展:在条件推断的框架下,定义了条件Kullback-Leibler离差,建立了模型设定存在偏误时广义线性混合模型下一类惩罚似然估计的渐近性质,提出了条件广义信息准则,在不同的环境下,证明了该准则的渐近有效性和模型选择相合性。这是本领域的第一个相关结果。该结果为模型选择/平均理论和广义线性混合模型统计推断理论提供了新工具,对这些领域理论和方法论发展有望起到很好的推动作用;依托Huber和Tukey损失函数,给出了元分析随机效应模型的稳健极大似然估计,设计了表现良好的数值算法,给出了这些估计的渐近分布和高至二阶的修正置信区间。这些结果对元分析、稳健估计理论之发展有望起到很好的促进作用,本工作发展出的基于随机二阶展开的工具对于促进随机效应模型统计推断理论的发展也能起到较好的作用; 依托Stein引理,我们给出了在非常一般的协方差结构下的修正赤池信息准则,证明了其渐近最优性。推导该修正赤池信息准则的技术路线适用于任意合理的估计方法;依托交叉核实和广义交叉核实,建立了合并不同备选岭参数下岭估计的模型平均的渐近理论,在非常宽泛的条件下证明了岭回归模型平均估计的相合性和渐近有效性。这些结果能有效提高岭估计的精度,对于完善模型平均理论有着较好的推动作用;在条件线性分布族的框架下构建了适用于离散面板数据模型的累计预测损失函数,给出了自适应组合预测,还建立了这些预测累计损失上界的oracle不等式。该结果对模型平均理论、统计学习理论和预测理论之发展有望起到很好的推动作用; 推导出了广义线性模型中最优模型平均估计的极限分布,提出了构造置信区间的具体算法,并严格证明了该算法的渐近性质。该结果较好地完善了模型平均的理论体系;指导研究生在复杂数据背景下开展模型选择、模型平均的拓展及应用研究。依托上述成果,项目组在JRSSB,CSDA,STPA,中国科学-数学,系统科学与数学上发表论文5篇。
{{i.achievement_title}}
数据更新时间:2023-05-31
监管的非对称性、盈余管理模式选择与证监会执法效率?
粗颗粒土的静止土压力系数非线性分析与计算方法
基于SSVEP 直接脑控机器人方向和速度研究
拥堵路网交通流均衡分配模型
中国参与全球价值链的环境效应分析
线性混合模型和广义线性混合模型均值和方差协方差结构的同时拟合及其统计诊断
广义线性混合效应模型的若干试验设计问题
样本选择模型和广义可加模型的非参数识别和估计的理论与方法
缺失数据下广义线性模型的经验似然和变量选择问题