High dimensional distorted data are widely used in the fields of biology, medicine and economy etc. Covariate-adjusted models are a class of model dealing with these data, and it has received many studies and applications. However,the existing work mainly focuses on the analysis of low dimensional data,and little work has been done for high dimensional covariate-adjusted models. This project mainly investigates the inference and variable selection for high dimensional covariate-adjusted models. The modern variable selection methods will be employed in covariate-adjusted (generalized) linear models, partially linear models, and semiparametric varying-coefficient partially linear models. The main contents include: 1. Inference for covariate-adjusted semiparametric varying-coefficient partially linear models; 2. Variable selection for some commonly-used covariate-adjusted models; 3. Variable selection for covariate-adjusted semiparametric varying-coefficient partially linear models; 4. Simulation and application. The main goal of the research is to propose some variable selection methods for the data confounded by some covariate, moreover, investigate the asymptotic properties of the estimator under some regular conditions, so as to provide support in theory and methods for the analysis of high dimensional complicated confounded data.
高维协变量污染复杂数据普遍存在于生物、医学和经济等领域,协变量调整模型是处理此类数据的一类专有模型(Sentürk et al.2005)。现有成果主要集中在低维模型的统计分析, 少有高维协变量污染数据的研究成果。 本项目拟研究高维协变量调整模型的统计推断,并结合现代变量选择方法,研究存在协变量污染的高维协变量调整(广义)线性模型、部分线性模型、半参变系数部分线性模型等模型选择问题。主要研究内容包括:1、协变量调整半参变系数模型统计推断;2、若干一般高维协变量调整模型的变量选择方法研究;3、高维协变量调整半参变系数部分线性模型变量选择研究;4、数值模拟与应用研究。研究目标是,在研究协变量调整模型推断的基础上,提出适应具有协变量污染调整模型的变量选择方法;在合适条件下,研究估计量的渐近性质。以期对高维协变量污染复杂数据分析提供方法和理论上的支持。
协变量调整模型是处理响应变量和预测变量存在乘积扭曲测量误差的一类专有回归模型,以高维数据,大数据为特征的数据时代也给统计带来了新的研究机遇。项目执行期间,我们在协变量调整模型的估计与变量选择方面取得了一些如下的研究成果:(1)潜变量数据的恢复是协变量调整模型推断的首要环节,我们创新性地提出了一种恢复数据的方法,该方法能够适应于观测变量的分布特征,需要更弱的假设条件,且通过选择合适的权重函数可以有效的减小估计量的方差,从而使得估计具有更高的效率。(2)基于新的恢复数据方法,我们研究了协变量调整非参数回归模型的NW估计、局部线性估计;协变量调整变系数模型的局部线性估计及函数系数的检验;协变量调整半参变系数部分线型模型的profile最小二乘估计,并得到了非参数估计量和参数估计量的渐近性质。(3)结合惩罚函数,我们研究了协变量调整线性模型的lasso与adaptive lasso变量选择方法;研究了变量维数趋于无穷大情形下线性回归模型的adaptive Dantzig变量选择方法;基于group lasso思想和scad惩罚函数,研究了协变量调整变系数模型的模型诊断与变量选择,所提出的方法可以同时选出重要的变量和诊断非零常数系数和函数系数,在正则条件下,还得到了估计量的oracle性质。(4)非参数估计量和压缩估计均为有偏估计,据有偏估计的渐近表示式,我们提出了一类渐近加权最小二乘的复合估计,所得估计量能够有效减小估计的偏差或方差,且能够克服估计中对讨厌参数的依赖。(5)此外,我们还研究了单指标模型的分位数回归估计与变量选择,研究了随机缺失数据下非线性回归模型的经验似然估计。接下来,我们还将研究协变量调整模型的复合分位数回归估计以及经验似然估计,以及协变量调整模型的检验等方面的问题。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于铁路客流分配的旅客列车开行方案调整方法
一种基于多层设计空间缩减策略的近似高维优化方法
基于LS-SVM香梨可溶性糖的近红外光谱快速检测
智能煤矿建设路线与工程实践
二维FM系统的同时故障检测与控制
高维数据下多因变量回归模型的统计推断
高维协变量下部分线性风险回归模型的变量选择
高维遗传数据变量间交互作用的统计推断方法研究
基于偏差估计的协变量不可忽略缺失数据敏感性分析研究