高维数据降维和变量选择的若干稳健方法研究

基本信息
批准号:11101022
项目类别:青年科学基金项目
资助金额:22.00
负责人:赵俊龙
学科分类:
依托单位:北京航空航天大学
批准年份:2011
结题年份:2014
起止时间:2012-01-01 - 2014-12-31
项目状态: 已结题
项目参与者:刘旭华,胡玉婷,郑雨晴
关键词:
分位点回归变量选择统计学习理论充分降维稳健性
结项摘要

在高维数据分析中,稳健的降维和变量选择方法是一个研究热点。许多降维方法从不同的角度考虑了稳健性,比如,对异常值的稳健,对参数选择的稳健以及对回归变量分布的稳健等。充分降维方法中,许多方法采用了平方损失,是不稳健的;而已有的稀疏充分降维方法,主要利用了L1惩罚的思想,对于惩罚参数的选择也是不稳健的。稳健充分降维方法需要进一步深入研究,而稳健的稀疏降维方法的相关研究还很少。本项研究包括三个内容:(1)基于指数损失和hinge损失的稳健降维方法研究;(2)基于(复合)分位点回归的稳健降维方法研究;(3)基于随机化思想的稳健稀疏降维方法研究。这些在已有方法中还没有相关研究。本项研究将发展新的稳健降维方法和稳健稀疏降维方法,具有重要的理论意义;本项研究对于进一步提高降维方法在金融、生物、医学等实际应用中的表现有很大帮助,具有较高的应用价值。

项目摘要

随着信息技术的发展,数据采集能力有了很大的提高。对高维数据建模成为越来越普遍的问题。高维数据的一个特点是信号弱,噪音大。已有的高维数据分析方法中,对稳健性的考虑还不充分。本项目重点是考虑高维数据建模中的稳健降维方法,针对不同的应用背景发展相应的统计方法,研究其理论性质并进行模拟和实际数据分析。 本项研究按照计划展开,取得了较好的成果。共发表论文近十篇,完成论文3篇,其中在The Annals of Statistics 发表论文1篇,Statistic Sinica 发表论文1篇。主要成果有如下几个方面。.(1)稳健的充分降维方法研究。已有充分降维方法中大多假设回归变量具有正态分布或椭圆分布。但是实际问题中,上述假设不一定能满足。 本项目对已有充分降维方法的切片当中的点的不同作用进行了分析, 提出了加权稳健降维方法。 .(2)两阶段降维方法研究。 在降维方法的研究中,一类方法是将降维与回归或分类同时进行,比如LASSO等方法;另一类方法是所谓两阶段降维方法,即首先对数据进行降维,然后利用已有的回归或分类方法对降维之后的数据进行处理。两阶段降维方法思路简单,被广泛应用。在两阶段建模方法中,大多数文献侧重于第一阶段降维方法的研究,而对降维方法对后续回归或分类影响考虑不足。在机器学习领域中,boosting方法是常用的分类方法。 作者研究了降维方法对boosting方法的影响。给出了两阶段降维boosting分类方法相合性的充分条件。 .(3)对高维影响点诊断。本项目研究了高维数据回归建模中的影响点的诊断问题。总所周知,影响点对回归有很重要的影响;可能导致错误的模型或者回归系数估计不相合等等。在回归变量维数比较低的情况下,Cook 距离是一个比较常用的用来诊断异常点的统计量,但是Cook 距离等方法无法直接应用与高维数据情形。本项研究给出了新的高维影响点诊断方法,相关结果发表在顶级期刊The Annals of Statistics。.(4)矩阵数据的变量选择。实际问题中经常遇到回归变量X是矩阵的数据类型,如脑电波等。在这类数据中,同行同列的变量往往有共同的属性,人们关心哪些行和列的属性对响应变量Y有影响。简单利用LASSO等方法会破坏了数据的行和列的内在结构,不能实现对行属性和列属性的选择。作者提出了structure lasso方法,可以对行和列进行选择。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
3

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
4

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
5

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019

赵俊龙的其他基金

批准号:31872463
批准年份:2018
资助金额:60.00
项目类别:面上项目
批准号:30972175
批准年份:2009
资助金额:35.00
项目类别:面上项目
批准号:11026049
批准年份:2010
资助金额:3.00
项目类别:数学天元基金项目
批准号:11471030
批准年份:2014
资助金额:60.00
项目类别:面上项目
批准号:31372429
批准年份:2013
资助金额:85.00
项目类别:面上项目
批准号:41802181
批准年份:2018
资助金额:25.00
项目类别:青年科学基金项目
批准号:81802841
批准年份:2018
资助金额:22.00
项目类别:青年科学基金项目
批准号:30070572
批准年份:2000
资助金额:15.00
项目类别:面上项目
批准号:11871104
批准年份:2018
资助金额:52.00
项目类别:面上项目
批准号:30671575
批准年份:2006
资助金额:28.00
项目类别:面上项目

相似国自然基金

1

高维纵向数据的若干稳健变量选择方法研究

批准号:11401383
批准年份:2014
负责人:樊亚莉
学科分类:A0402
资助金额:22.00
项目类别:青年科学基金项目
2

稳健变量选择与高维数据分析

批准号:11071022
批准年份:2010
负责人:崔恒建
学科分类:A0403
资助金额:30.00
项目类别:面上项目
3

基于分位数回归的高维数据降维及变量选择研究

批准号:11401561
批准年份:2014
负责人:张庆昭
学科分类:A0403
资助金额:22.00
项目类别:青年科学基金项目
4

基于充分降维方法的分层变量选择

批准号:11026049
批准年份:2010
负责人:赵俊龙
学科分类:A0403
资助金额:3.00
项目类别:数学天元基金项目