稳健且有效的回归和变量选择方法研究

基本信息

批准号：11271383

项目类别：面上项目

资助金额：60.00

负责人：王学钦

学科分类：

依托单位：中山大学

批准年份：2012

结题年份：2016

起止时间：2013-01-01 - 2016-12-31

项目状态：已结题

项目参与者：蔡敬衡,张磊,姜云卢,葛文秀,温灿红,李婷,邹莉,王鑫

关键词：

变量选择崩溃点影响函数稳健回归有效性

结项摘要

It is a challenging work to construct a regression estimate with high robustness and high efficiency simultaneously, especilly for Ultra-high dimensional data. Although most M-estimator used in regression models or for (Ultra-) high dimensional data could be claimed to be robust via simulation studies, but their finite sample breakdown point, as an important measure of robustness, is very low, asympotic 0. The estimators based on the step-by-step M-estimators such as MM-estimator and ARETE can overcome this shortcoming to have high robustness and high efficiency simultaneously, but they all rely on an initial estimator with high robustness. The ARETE is the first variable selection method to be verified its robutness in theory, yet it could not be simiply applied in Ultra-high dimensional setting due to the high robustness of initial estimator. So this research try to answer the following two questions:1） Whether can the estimators be provided without the initial estimator with high robustness? And then such estimator can be applied in Ultra-high dimensional setting, also extended to multivariate regression model.2) whether new measure of robustness could be proposed in the framework of non-asysmtotic theory,make it possible to explain the "robustness" of many common used M-estimators such as quantile regression estimators.

如何构造高稳健又高有效的回归估计，尤其在超高维数据中，是一个具有挑战性的工作。对于回归模型和(超)高维环境中的大多数M-估计，虽然在模拟实验中能够验证它们具有一定的稳健性，但是它们的一个重要的稳健性度量- - -有限样本的崩溃点很低，渐进为0。基于分步M-估计的MM估计和ARETE等估计可以改进这些不足，使得它们能够同时具有高稳健性和高有效性，但它们都依赖于一个高稳健的初始估计。也因为这种依赖性，ARETE虽然是第一个提供稳健理论证明的稳健变量选择方法，但不能简单推广到超高维数据中。因此，本项目试图回答两个问题：1）是否可以构造不依赖高稳健的初始估计的高稳健又高有效的回归估计？从而提出针对超高维数据的高稳健又高有效的变量选择方法。进一步考虑它们的多元推广。2）是否能够在非渐进理论的框架下考虑新的稳健性度量，使其能够阐明Quantile回归估计等常用的M-估计的"稳健性"

项目摘要

如何构造高稳健又高有效的回归估计，尤其在超高维数据中，是一个具有挑战性的工作。对于回归模型和(超)高维环境中的大多数M-估计，虽然在模拟实验中能够验证它们具有一定的稳健性，但是它们的一个重要的稳健性度量---有限样本的崩溃点很低，渐进为0。基于分步M-估计的MM-估计和ARETE等估计可以改进这些不足，使得它们能够同时具有高稳健性和高有效性，但它们都依赖于一个高稳健的初始估计。也因为这种依赖性，ARETE虽然是第一个提供稳健理论证明的稳健变量选择方法，但不能简单推广到超高维数据中。本项目主要围绕如何构建超高维数据的高稳健又高有效的变量选择方法而展开方法学研究，并进一步探讨相关应用。在国家自然科学基金（项目编号：11271383）的支助下，在稳健超高维变量选择方法、不依赖于模型的超高维特征筛选方法等方向取得重要的研究成果，例如（1）提出了基于指数平方损失的稳健变量选择方法，并从理论上证明其Oracle性质和稳健性：渐时崩溃点为1/2而且影响函数是有界的；（2）研究了变量选择方法中的惩罚函数是如何影响到变量选择的效果，提出了一种无穷次可微且有界的惩罚函数，使得对应的惩罚变量选择方法不仅具有优良的统计性质，而且具有计算上的优势。相关成果发表在统计学著名刊物JASA, Scandinavian Journal of Statistics, SII上。研究成果应用于分析食管鳞状细胞癌病人的样本、分析精神疾病病人脑部MRI数据、下一代测序数据，成果丰富，系列成果分别发表在交叉领域著名刊物：British journal of cancer（影响因子：5.57）， Nature子刊Scientific report（影响因子：5.23），生物信息学顶尖刊物Bioinformatics。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.16796/j.cnki.1000-3770.2022.03.003

发表时间：2022

DOI：

发表时间：

DOI：

发表时间：2016

DOI：10.7524/j.issn.0254-6108.2021021801

发表时间：2022

DOI：10.11936/bjutxb2021010011

发表时间：2021

王学钦的其他基金

批准号：11001280

批准年份：2010

资助金额：17.00

项目类别：青年科学基金项目

批准号：10926200

批准年份：2009

资助金额：10.00

项目类别：数学天元基金项目

批准号：11771462

批准年份：2017

资助金额：48.00

项目类别：面上项目

相似国自然基金

缺失数据下半参数回归模型的稳健估计及变量选择方法研究

批准号：11761020

批准年份：2017

负责人：刘惠篮

学科分类：A0403

资助金额：36.50

项目类别：地区科学基金项目

时间序列模型中稳健且有效估计及稳健变量选择问题的研究

批准号：11301221

批准年份：2013

负责人：姜云卢

学科分类：A0402

资助金额：22.00

项目类别：青年科学基金项目

多因变量回归模型的稳健设计

批准号：10271078

批准年份：2002

负责人：岳荣先

学科分类：A0401

资助金额：14.50

项目类别：面上项目

高维纵向数据的若干稳健变量选择方法研究

批准号：11401383

批准年份：2014

负责人：樊亚莉

学科分类：A0402

资助金额：22.00

项目类别：青年科学基金项目

稳健且有效的回归和变量选择方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

EBPR工艺运行效果的主要影响因素及研究现状

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于MCPF算法的列车组合定位应用研究

水中溴代消毒副产物的生成综述

城市生活垃圾热值的特征变量选择方法及预测建模

王学钦的其他基金

基于Laplace Error惩罚函数的变量选择方法及其在全基因组关联分析中的应用

稀疏全基因组关联分析方法研究

条件独立性及其应用

相似国自然基金