稳健且有效的回归和变量选择方法研究

基本信息
批准号:11271383
项目类别:面上项目
资助金额:60.00
负责人:王学钦
学科分类:
依托单位:中山大学
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:蔡敬衡,张磊,姜云卢,葛文秀,温灿红,李婷,邹莉,王鑫
关键词:
变量选择崩溃点影响函数稳健回归有效性
结项摘要

It is a challenging work to construct a regression estimate with high robustness and high efficiency simultaneously, especilly for Ultra-high dimensional data. Although most M-estimator used in regression models or for (Ultra-) high dimensional data could be claimed to be robust via simulation studies, but their finite sample breakdown point, as an important measure of robustness, is very low, asympotic 0. The estimators based on the step-by-step M-estimators such as MM-estimator and ARETE can overcome this shortcoming to have high robustness and high efficiency simultaneously, but they all rely on an initial estimator with high robustness. The ARETE is the first variable selection method to be verified its robutness in theory, yet it could not be simiply applied in Ultra-high dimensional setting due to the high robustness of initial estimator. So this research try to answer the following two questions:1) Whether can the estimators be provided without the initial estimator with high robustness? And then such estimator can be applied in Ultra-high dimensional setting, also extended to multivariate regression model.2) whether new measure of robustness could be proposed in the framework of non-asysmtotic theory,make it possible to explain the "robustness" of many common used M-estimators such as quantile regression estimators.

如何构造高稳健又高有效的回归估计,尤其在超高维数据中,是一个具有挑战性的工作。对于回归模型和(超)高维环境中的大多数M-估计,虽然在模拟实验中能够验证它们具有一定的稳健性,但是它们的一个重要的稳健性度量- - -有限样本的崩溃点很低,渐进为0。基于分步M-估计的MM估计和ARETE等估计可以改进这些不足,使得它们能够同时具有高稳健性和高有效性,但它们都依赖于一个高稳健的初始估计。也因为这种依赖性,ARETE虽然是第一个提供稳健理论证明的稳健变量选择方法,但不能简单推广到超高维数据中。因此,本项目试图回答两个问题:1)是否可以构造不依赖高稳健的初始估计的高稳健又高有效的回归估计? 从而提出针对超高维数据的高稳健又高有效的变量选择方法。进一步考虑它们的多元推广。2)是否能够在非渐进理论的框架下考虑新的稳健性度量,使其能够阐明Quantile回归估计等常用的M-估计的"稳健性"

项目摘要

如何构造高稳健又高有效的回归估计,尤其在超高维数据中,是一个具有挑战性的工作。对于回归模型和(超)高维环境中的大多数M-估计,虽然在模拟实验中能够验证它们具有一定的稳健性,但是它们的一个重要的稳健性度量---有限样本的崩溃点很低,渐进为0。基于分步M-估计的MM-估计和ARETE等估计可以改进这些不足,使得它们能够同时具有高稳健性和高有效性,但它们都依赖于一个高稳健的初始估计。也因为这种依赖性,ARETE虽然是第一个提供稳健理论证明的稳健变量选择方法,但不能简单推广到超高维数据中。本项目主要围绕如何构建超高维数据的高稳健又高有效的变量选择方法而展开方法学研究,并进一步探讨相关应用。在国家自然科学基金(项目编号:11271383)的支助下,在稳健超高维变量选择方法、不依赖于模型的超高维特征筛选方法等方向取得重要的研究成果,例如(1)提出了基于指数平方损失的稳健变量选择方法,并从理论上证明其Oracle性质和稳健性:渐时崩溃点为1/2而且影响函数是有界的;(2)研究了变量选择方法中的惩罚函数是如何影响到变量选择的效果,提出了一种无穷次可微且有界的惩罚函数,使得对应的惩罚变量选择方法不仅具有优良的统计性质,而且具有计算上的优势。相关成果发表在统计学著名刊物JASA, Scandinavian Journal of Statistics, SII上。研究成果应用于分析食管鳞状细胞癌病人的样本、分析精神疾病病人脑部MRI数据、下一代测序数据,成果丰富,系列成果分别发表在交叉领域著名刊物:British journal of cancer(影响因子:5.57), Nature子刊Scientific report(影响因子:5.23),生物信息学顶尖刊物Bioinformatics。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
3

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
4

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
5

天津市农民工职业性肌肉骨骼疾患的患病及影响因素分析

天津市农民工职业性肌肉骨骼疾患的患病及影响因素分析

DOI:
发表时间:2019

王学钦的其他基金

批准号:11001280
批准年份:2010
资助金额:17.00
项目类别:青年科学基金项目
批准号:10926200
批准年份:2009
资助金额:10.00
项目类别:数学天元基金项目
批准号:11771462
批准年份:2017
资助金额:48.00
项目类别:面上项目

相似国自然基金

1

缺失数据下半参数回归模型的稳健估计及变量选择方法研究

批准号:11761020
批准年份:2017
负责人:刘惠篮
学科分类:A0403
资助金额:36.50
项目类别:地区科学基金项目
2

时间序列模型中稳健且有效估计及稳健变量选择问题的研究

批准号:11301221
批准年份:2013
负责人:姜云卢
学科分类:A0402
资助金额:22.00
项目类别:青年科学基金项目
3

多因变量回归模型的稳健设计

批准号:10271078
批准年份:2002
负责人:岳荣先
学科分类:A0401
资助金额:14.50
项目类别:面上项目
4

高维纵向数据的若干稳健变量选择方法研究

批准号:11401383
批准年份:2014
负责人:樊亚莉
学科分类:A0402
资助金额:22.00
项目类别:青年科学基金项目