Sufficient dimension reduction aims at reducing the dimension of covariates via constructing low dimensional latent variables while capturing all the information involved in response variable. However, latent variables don’t have any meaningful explanation, which causes another difficulty to the explanation and application of regression model. Groupwise dimension reduction construct sparse latent variables utilizing the group structure between covariates, and such that every latent variable is the linear combination of the covariates which belong to one same group. The sparsity and group information improve the explanation of latent variables. Howbeit, all the existing groupwise dimension reduction literatures require the group structure is given and non-overlapped. This project will pay most attention to groupwise dimension reduction with overlapped group structure, or even unknown group structure. What we will study include: existing groupwise dimension reduction concepts will be extended to be compatible with overlapped group structure; for the setting with overlapped group structure, estimation procedures for the groupwise central subspace will be proposed and the theoretical properties of the proposed estimators will be investigated; Gaussian graphic model is employed to estimate the structure between covariates when the group structure is unknown, groupwise central subspace will be estimated by incorporating the graphic structure into sufficient dimension reduction, furthermore, large sample properties of the proposed estimators will be proved; finally, numerical simulation and real data analysis will be conducted to examine the finite sample performance of the proposed estimators.
充分降维方法在不损失响应变量信息的前提下构造低维潜变量,对协变量进行降维。然而,潜变量往往不具有明确的现实意义,给模型的解释和应用带来了困难。群组充分降维方法利用协变量之间的群组结构构造稀疏潜变量,使得每个潜变量只是某个群组中协变量的线性组合,提高了模型的可解释性和应用性。但是,现有的群组充分降维文献均假定群组结构已知且群组之间互不重叠。本项目重点研究群组之间存在交叉重叠,甚至群组结构未知情形的群组充分降维问题。研究内容包括:对现有的群组充分降维的定义进行扩展,使得新定义适用于重叠群组结构的情形;对于重叠群组结构情形,提出群组中心子空间的估计方法,并研究估计量的大样本性质;对于群组结构未知情形,构建协变量之间的高斯图模型刻画结构关系,将图结构关系与群组充分降维问题相结合,提出群组中心子空间的估计量并研究相应的大样本性质;最后,通过数值模拟和实际数据分析检验所提估计量的有限样本效果。
项目组成员严格按照获批的研究计划开展了文献搜集与研读、学术研讨与交流、学术论文的撰写与投稿等活动。完成了项目计划书中的所有研究内容,达到了预期的研究成果,简要概述如下:扩展了现有群组充分降维的基本概念,以适用于重叠群组结构的充分降维问题;应用稀疏惩罚的方法处理群组结构之间存在的信息冗余,并结合包络方法提出了重叠群组结构中心子空间的估计量,从理论上证明了估计量的大样本性质,通过数值模拟和实际数据分析验证了估计量的有限样本效果;当群组结构未知时,应用Graphic Lasso方法构造协变量之间的高斯图模型,并基于节点的思路将图结构转化为重叠群组结构的充分降维问题,并结合实际数据分析展示了方法的效果。除了项目计划书的内容外,项目组还进行了若干拓展性研究。包括:结合充分降维方法研究了融合协变量图结构的高维广义线性模型的变量选择问题,将现有的线性模型变量选择问题推广到广义线性模型,理论上证明了参数估计的Oracle性质,并通过数值模拟和实际数据分析验证了估计量的有限样本效果;基于稀疏惩罚方法研究了高维众数回归的变量选择问题,应用EM算法对优化问题进行求解,理论上证明了参数估计的相合性和变量选择的相合性。基于该项目研究内容,项目组已完成了三篇学术论文的撰写与投稿,其中两篇分别在中国科学数学英文版和应用统计杂志(Journal of Applied Statistics)公开发表,另还有一篇已投稿到journal of statistical planning and inference.
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
玉米叶向值的全基因组关联分析
监管的非对称性、盈余管理模式选择与证监会执法效率?
粗颗粒土的静止土压力系数非线性分析与计算方法
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
多维因变量充分降维与多总体共同充分降维方法研究
基于充分降维方法的分层变量选择
随机矩阵/数组形式高维数据的充分降维:统计理论、方法及其应用
充分降维理论中基于分布加权思想的压缩估计