With the development of science and technology and the improvement of computer storage capacity, high dimensional longitudinal data is becoming very common. Variable selection of the high dimensional longitudinal data has become one of the frontier and core issues of contemporary statistical studies. The problem not only has statistical theoretical research value, but also has important application value. This project will study variable selection and correlation matrix selection in the marginal model with the high dimensional longitudinal data and also study the asymptotic properties of parameter estimators under the framework of generalized estimating equations in the high dimensional longitudinal data, mainly including: 1) define a correlation coefficient between random vectors used to screen the variables in high dimensional longitudinal data; utilizing the idea of generalized estimating equations, construct efficient and doubly robust penalty estimation functions by using the rank method, quantile regression, and exponential squared loss function; 2) construct a unified criterion function to select the variables and a correlation matrix simultaneously via a pseudo-Gaussian likelihood; 3) construct a new algorithm based on the penalized estimation functions smoothed by the induced smoothing method, and prove that the smoothed functions are asymptotically equivalent to the original functions; 4) prove the existence of the solution and the asymptotic properties of the estimators derived from the estimating equations constructed in the framework of generalized estimating equations under the high dimensional longitudinal data, and establish appropriate regularity conditions. This project is expected to provide efficient and doubly robust methods for variable selection and parameter estimation of the high dimensional longitudinal data and explore a new idea for solving the similar problems in biology, medicine, and other fields.
随着科学技术的发展和计算机存储能力的提高,高维纵向数据越来越普遍。高维纵向数据的变量选择是当代统计研究的前沿问题和核心问题之一。该问题不仅具有统计理论研究价值,还具有重要的应用价值。本项目研究高维纵向数据边际模型的变量选择和相关矩阵选择,以及广义估计方程(GEE)框架下的估计在高维的渐近性质,具体包括:1)定义用于高维纵向数据变量筛选的向量间的相关系数;基于GEE的思想,用秩方法、分位数回归、指数平方损失函数分别构建高效和双重稳健的惩罚估计函数;2)基于伪高斯似然构建对变量和相关矩阵同时进行选择的准则函数;3)基于诱导光滑后的惩罚估计函数构建新算法,并证明光滑后的函数和原函数渐近等价;4)证明在GEE框架下构造的估计方程在高维架构下解的存在性和估计的渐近性质及其成立条件。本项目尝试为高维纵向数据的变量选择和参数估计提供高效和双重稳健的新方法,为解决生物、医学等领域中的同类问题提供新思路。
随着科学技术的发展和计算机存储能力的提高,高维纵向数据越来越普遍。高维纵向数据的变量选择是当代统计研究的前沿问题和核心问题之一,但纵向数据的相关性为高维数据的统计研究带来挑战。本项目主要研究高维纵向数据边际模型的变量选择和参数估计,以及在广义估计方程框架下得到的参数估计在高维下的渐近性质。主要研究成果包括:1)基于Tukey损失函数,构建双重稳健的估计函数,提出新的相关矩阵以刻画纵向数据的相关性,给出一种准则函数以选择合适的调节参数,并证明在自变量是稀疏的且其维数随样本量发散的条件下所提出新方法的神谕性质。2)基于稳健的损失函数以及二次推断函数方法的思想,构建多个双重稳健的估计方程,并通过双惩罚对数经验似然以实现变量和估计方程的双重选择,证明参数估计的渐近性质。3)在高维且自变量非稀疏且变量维数随样本量发散的情况下,给出混合估计方程解的存在性条件,并证明在该条件下参数估计的渐近性质。4)探讨纵向数据边际模型秩方法的变量选择,构建双重稳健的目标函数,并证明变量选择的相合性和参数估计的渐近正态性。大量的数值模拟和实际数据分析表明,本项目提出的方法是稳健的、高效的,对实际数据拟合的非常好。在该面上项目的资助下,出版英文专著1部,发表学术论文24篇,其中SCI论文23篇,1篇为ESI高被引论文。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
高维纵向数据的若干稳健变量选择方法研究
基于概率生成模型的高维数据变量选择
基于copula和复合分位数回归的高维纵向数据估计方程、经验似然及变量选择
基于分位数回归的高维数据降维及变量选择研究