High and ultrahigh-dimensional data appear frequently in many different areas in our social lives. It is meaningful to do statistical analysis effectively to these types of data. Dimension reduction is a useful technique to deal with regression analysis of high dimensional data, which reduces the predictor dimension by constructing informative linear combinations. Exsiting studies mostly focus on central subspace or central mean subspace. However, in practice people may be more concerned about the effect of covariates on the response variable.at some quantile. The project will first propose the concept ‘central qth quantile subspace’ and develop methods to recover it. The second goal of the project is to rescover central subspace based on composite quantile regression and to build the bridge from central quantile subspace to central subspace. On the other hand, a lot of research results show the sparsity principle is reasonable, that is, only a moderate portion of the covariates are truly relevant to the response variable and need to be reduced further. Then the third work of our project focus on simultaneously estimating the central subspace(central qth quantile subspace) and selecting the contributing predictors based on quantle regression under high and ultrahigh dimensional data. It is remarkable the proposed methods don't require the linearity condition. Some asymptotic results are given. Extensive numerical studies are conducted and show the finite sample properties of the proposed methods.
高维及超高维数据是当今社会多个领域经常碰到的数据类型,能否有效的对其进行统计分析具有非常重要的意义。通过构造协变量的线性组合,降维能够很好地处理高维数据回归分析。以往的降维多集中于中心(均值)子空间上的研究,但现实生活中人们可能更加关心不同分位数上协变量对响应变量的影响。本项目拟针对中心分位数子空间进行研究,给出识别该子空间的方法。本项目还拟考虑利用组合分位数回归识别中心子空间,并拟构建中心分位数子空间到中心子空间的桥梁。另一方面,大量的研究结果表明模型是稀疏的,也即只有一部分变量是真正与响应变量有关的。因此,本项目还拟研究高维及超高维数据下基于分位数回归的同时降维和变量选择方法。本项目拟从理论上研究以上研究内容对应估计的大样本性质,并利用数值模拟研究所提方法在有限样本下的表现。
高维及超高维数据是当今社会多个领域经常碰到的数据类型,能否有效的对其进行统计分析具有非常重要的意义。本项目主要在高维数据分析方法,分位数回归等稳健方法以及半参数降维模型三方面开展研究。针对高维数据分析方向,开展了以下工作。首先,我们在高维协变量加速失效时间模型下研究了多数据集整合分析方法,并对方法的大样本理论性质给出了完整严谨的证明。这项成果不仅总结了已有的相关研究工作,而且首次系统地研究这些方法的理论性质。接着在高维协变量加速失效时间模型下,我们研究了低维感兴趣参数的统计推断问题。利用惩罚和投影方法,将高维协变量的影响考虑进来,使得得到的感兴趣参数的渐进收敛速度能够达到根号n。最后,我们利用刀切经验似然方法研究了高维回归系数的检验问题,理论证明在原假设下检验统计量渐近卡方分布,而且在备择假设下趋于无穷。模拟发现所提方法更够很好控制第一类错误,同时相比其他方法具有更高的功效。针对稳健方法研究,我们首先提出了两种基于惩罚分位数回归估计的基因环境交互变量筛选方法。不同于以往高维筛选方法,我们利用惩罚分位数估计,并设计了有效可行算法实现。模拟表明所提方法能够适应异常点或重尾分布,相比最小二乘方法更稳健。另外,我们提出了一种加权Wilcoxon估计,使用间接方法估计ROC曲线。相比之前的研究,所提方法更适合重建模型框架,且对响应变量和协变量都是是稳健的。最后,我们还研究了加权Wilcoxon估计在模型选择和模型平均上的理论性质,主要是在FIC信息准则下开展的研究。针对降维模型方面,我们提出了单指标变系数模型的有效估计方程,并证明了所得估计能达到半参数有效下界。另外,我们考虑了扩展的单指标模型的变量选择问题。我们提出了一种惩罚的估计方程方法,证明了所提出方法具有“Oracle”性质,并结合伪Fisher得分和MM算法提出了一种新的算法,用于解决惩罚估计方程的计算问题。总的来说,我们顺利完成了本项目的既定目标,并在本项目的支持下共完成17篇论文。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
基于分形L系统的水稻根系建模方法研究
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
缺失响应数据下高维稀疏分位数回归模型的变量选择
基于copula和复合分位数回归的高维纵向数据估计方程、经验似然及变量选择
高维纵向数据分位数回归中的统计推断研究
含方向变量的高维数据的多元非参数回归建模及降维研究