This project mainly studies robust variable selection for longitudinal data. The main focuses are as follows: I), Based on penalized robust generalized estimating equation, we will study robust variable selection in generalized linear models for longitudinal data, and discuss the breakdown point and the influence function of the robust sparse estimator. II), Conbinde QIF method and two step adaptive LASSO, we will study variable selection for high dimensional longitudinal data in quantile regression model. III), We will study robust variable selection for high dimensional longitudinal data based on regularized robust empirical likelihood method. In this project, we will investigate the finite sample performance of the proposed new methods by simulation studies, and apply the new methods to real data analysis.
本课题主要研究针对纵向数据的稳健变量选择问题.主要研究内容有:一、基于惩罚稳健广义估计方程方法,研究纵向数据在广义线性回归模型的稳健变量选择问题,并且讨论稳健稀疏估计量的崩溃点性质、影响函数性质.二、在分位数回归模型下,结合QIF方法,采用两步自适应LASSO,研究高维纵向数据数据的变量选择问题.三、采用正则化的稳健经验似然的方法,研究高维纵向数据的稳健变量选择问题. 同时,在本课题的研究中,将通过大量的计算机模拟实验,考察所提方法的有限样本性质,并将这些新的方法应用于实际数据的分析.
本项目主要围绕高维数据的稳健变量选择和有效稳健估计等问题展开研究,目前主要取得了以下6个方面的成果。.1. 对高维纵向数据的线性混合效应模型, 基于对随机效应部分的协方差阵进行Cholesky分解,利用惩罚稳健似然的方法来对固定效应和随机效应同时进行变量选择. 我们在理论上证明了该方法的相合性和渐近正态性。模拟研究显示,该方法能够抵抗异常值干扰,使得模型误差和模型选择效果较好。.2. 对于超高维的横截面数据,我们提出了一种两步稳健变量选择方法。即充分降维和变量选择。我们在一些正则性条件下,证明了我们方法的变量选择相合性。我们还把该方法应用到一组实际数据中,分析结果表明效果良好。.3. 在第2个工作的基础上,我们考虑超高维的带有固定删失的横截面数据,我们提出一种基于信息子集的稳健变量选择方法。我们首先通过充分降维和自适应LASSO对删失概率进行估计,然后选出数据中真实的τ分位数在删失概率之上的信息子集,然后进行类似工作2中的两步变量选择。模拟显示,该方法优于Naive方法。我们把该方法应用到超高维的基因数据中,结果表明我们的方法在人为删失17%的情况下,依然可以得到跟文献中利用全部无删失数据类似的结果。.4. 对高维横截面数据和纵向数据,我们考虑了稳健估计方程中有界得分函数的选择问题。我们通过大量模拟研究,结果显示,自由度为2的t函数在某些模拟设置下对异常值的限制作用优于文献中常用的Huber函数。.5.我们基于均值漂移模型和压缩估计方法,进行异常值检测,从而大大降低异常值检测过程中犯两种错误的概率,并系统研究响应变量中的异常值对协变量的变量选择和估计的影响,提出一种先检测并修正然后进行变量选择的两步稳健变量选择方法..6. 对响应变量带有随机删失的纵向数据,我们采用一种基于经验似然的有效稳健估计方法。该方法可实现均值部分和方差部分的联合估计,不需要对协方差结构提出假设。采用经验似然而不是稳健估计方程的估计方法,可以在保证稳健型的前提下,提高估计的效率。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
高维数据降维和变量选择的若干稳健方法研究
稳健变量选择与高维数据分析
基于高维纵向数据边际模型的变量选择及理论研究
稳健高维变量选择方法及其在基因表达分析中的应用研究