It is a challenging work to construct a regression estimate with high robustness and high efficiency simultaneously, especilly for Ultra-high dimensional data. Although most M-estimator used in regression models or for (Ultra-) high dimensional data could be claimed to be robust via simulation studies, but their finite sample breakdown point, as an important measure of robustness, is very low, asympotic 0. The estimators based on the step-by-step M-estimators such as MM-estimator and ARETE can overcome this shortcoming to have high robustness and high efficiency simultaneously, but they all rely on an initial estimator with high robustness. The ARETE is the first variable selection method to be verified its robutness in theory, yet it could not be simiply applied in Ultra-high dimensional setting due to the high robustness of initial estimator. So this research try to answer the following two questions:1) Whether can the estimators be provided without the initial estimator with high robustness? And then such estimator can be applied in Ultra-high dimensional setting, also extended to multivariate regression model.2) whether new measure of robustness could be proposed in the framework of non-asysmtotic theory,make it possible to explain the "robustness" of many common used M-estimators such as quantile regression estimators.
如何构造高稳健又高有效的回归估计,尤其在超高维数据中,是一个具有挑战性的工作。对于回归模型和(超)高维环境中的大多数M-估计,虽然在模拟实验中能够验证它们具有一定的稳健性,但是它们的一个重要的稳健性度量- - -有限样本的崩溃点很低,渐进为0。基于分步M-估计的MM估计和ARETE等估计可以改进这些不足,使得它们能够同时具有高稳健性和高有效性,但它们都依赖于一个高稳健的初始估计。也因为这种依赖性,ARETE虽然是第一个提供稳健理论证明的稳健变量选择方法,但不能简单推广到超高维数据中。因此,本项目试图回答两个问题:1)是否可以构造不依赖高稳健的初始估计的高稳健又高有效的回归估计? 从而提出针对超高维数据的高稳健又高有效的变量选择方法。进一步考虑它们的多元推广。2)是否能够在非渐进理论的框架下考虑新的稳健性度量,使其能够阐明Quantile回归估计等常用的M-估计的"稳健性"
如何构造高稳健又高有效的回归估计,尤其在超高维数据中,是一个具有挑战性的工作。对于回归模型和(超)高维环境中的大多数M-估计,虽然在模拟实验中能够验证它们具有一定的稳健性,但是它们的一个重要的稳健性度量---有限样本的崩溃点很低,渐进为0。基于分步M-估计的MM-估计和ARETE等估计可以改进这些不足,使得它们能够同时具有高稳健性和高有效性,但它们都依赖于一个高稳健的初始估计。也因为这种依赖性,ARETE虽然是第一个提供稳健理论证明的稳健变量选择方法,但不能简单推广到超高维数据中。本项目主要围绕如何构建超高维数据的高稳健又高有效的变量选择方法而展开方法学研究,并进一步探讨相关应用。在国家自然科学基金(项目编号:11271383)的支助下,在稳健超高维变量选择方法、不依赖于模型的超高维特征筛选方法等方向取得重要的研究成果,例如(1)提出了基于指数平方损失的稳健变量选择方法,并从理论上证明其Oracle性质和稳健性:渐时崩溃点为1/2而且影响函数是有界的;(2)研究了变量选择方法中的惩罚函数是如何影响到变量选择的效果,提出了一种无穷次可微且有界的惩罚函数,使得对应的惩罚变量选择方法不仅具有优良的统计性质,而且具有计算上的优势。相关成果发表在统计学著名刊物JASA, Scandinavian Journal of Statistics, SII上。研究成果应用于分析食管鳞状细胞癌病人的样本、分析精神疾病病人脑部MRI数据、下一代测序数据,成果丰富,系列成果分别发表在交叉领域著名刊物:British journal of cancer(影响因子:5.57), Nature子刊Scientific report(影响因子:5.23),生物信息学顶尖刊物Bioinformatics。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
基于LASSO-SVMR模型城市生活需水量的预测
拥堵路网交通流均衡分配模型
天津市农民工职业性肌肉骨骼疾患的患病及影响因素分析
缺失数据下半参数回归模型的稳健估计及变量选择方法研究
时间序列模型中稳健且有效估计及稳健变量选择问题的研究
多因变量回归模型的稳健设计
高维纵向数据的若干稳健变量选择方法研究