高维数据分析是当前统计研究的热点之一,特别是自从Li (1991,JASA)提出切片逆回归技术以来,许多降维方法被提出. 然而这些方法主要针对数据完全观察的情形。但实际中数据常常有缺失,而数据缺失时降维问题趋今研究较少,这方面值得特别的专门研究。本项目分别研究反映变量缺失或协变量缺失时降维方法与降维技术,在反映变量缺失时我们将首先发展融合-精练两步方法找到中心降维子空间,发展概率质量函数加权imputation方法估计所获得的中心降维子空间的基,并证明是根号n相合估计,将Zhu等(2009,Biometrika)中估计维数的方法推广到缺失数据情形;我们还将发展反映变量缺失时切片逆回归方法与极大化相关系数法;我们还通过求中心分位子空间获得中心子空间;研究反映变量缺失时降维技术在变量选择中的应用。此外,我们也研究协变量缺失时降维技术,在无须对倾向性得分函数作模型假设下发展降维技术。
缺失数据普遍发生在一些实际问题的研究中。本项目研究数据缺失时高维数据分析的方法、理论与应用。研究了协变量缺失时非参数降维问题,发展了两步方法,证明了降维方向估计有根号n相合性及维数估计的相合性,与已有工作本质区别在于本项研究无需假设任何模型;研究了反映变量缺失时降维技术在变量选择中的应用问题,基于SIR方法发展了不依赖模型假设的变量选择方法; 研究了异方差部分线性单指标模型的变量选择问题及估计的渐近有效性问题,我们发展了有效估计方程方法,该有效估计方程是使用部分线性单指标模型的有效得分函数并基于阈值估计方程得到的, 所定义的估计具有Oracle性质及渐近有效性;研究了部分线性乘积模型相对误差估计方法,证明了所定义的估计是相合的和渐近正态的,并在相对误差准则下研究了变量选择问题,证明了所发展的变量选择方法具有Oracle性质;基于复发事件数据发展了可加比率模型的变量选择问题,根据回归系数的估计定义了一个损失函数, 对该损失函数分别施加L_1及SCAD惩罚发展两种变量选择方法, 在适当条件下证明了两种方法均具有Oracle性质;在响应变量缺失时,考虑了由一广义估计方程所确定参数的估计问题,在倾向得分函数是参数模型假设下,我们使用加权广义矩方法定义了两种估计,其权是由经验似然方法获得,由于经验似然使用降维约束条件,因而该避免了已有的GMM估计方法的维数祸根问题,从而也解决了计算上的困难;在删失示性变量缺失时,研究了线性回归分析,定义了回归校准估计、插补估计、逆概率加权估计,证明了所定义的估计的渐近正态性;在响应变量缺失下研究了一扩展的单指标模型的估计问题,使用联合估计方程发展一种三步估计方法估计单指标参数向量及非参数函数,建立了估计的渐近理论。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
论大数据环境对情报学发展的影响
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
高维数据保真降维方法研究
随机矩阵/数组形式高维数据的充分降维:统计理论、方法及其应用
基于离散分析方法的谱图理论研究及其在高维数据降维中的应用
多视野高维复杂数据融合降维方法与理论研究