超高维数据的变量筛选方法

基本信息
批准号:11371236
项目类别:面上项目
资助金额:55.00
负责人:朱利平
学科分类:
依托单位:上海财经大学
批准年份:2013
结题年份:2017
起止时间:2014-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:冯兴东,柏杨,辛欣,邱峰,周亭攸,李静怡,朱晓晨
关键词:
变量筛选超高维数据确定筛选性质相关性学习独立筛选法
结项摘要

In recent years, ultrahigh dimensional data arises frequently in many scientific fields, such as biology and medical science. How to analyze ultrahigh dimensional data poses many challenges to conventional computational algorithm and statistical theory. In this project, we aim to study independent screening procedures for ultrahigh dimensional data. Unlike conventional variable selection techniques,independent screening procedures are computationally efficient, which makes them very appealing in ultrahigh dimensional data analysis. We investigate the following four issues. (1) With the sparsity principle, we design new model-free independent screening procedures for analyzing ultrahigh dimensional data; (2) borrowing the idea of double robustness in semiparametrics, we design new iterative procedures to address the issue that the existing independent screening procedures may miss some important predictors which are marginally irrelevant to the response variable; (3) we discuss how to decide the number of predictors which should be retained after the screening procedure, in order to keep all important predictors while removing as many unimportant predictors as possible; and (4) we establish some theoretical properties, including the ranking consistency property and the selection consistency property if possible, for the new model-free independent screening procedures under mild conditions. In addition, we apply newly proposed independent screening procedures to adress some important scientific questions, intending to make some interesting scientific observations.

近年来,超高维数据频繁地出现在生物及医学等诸多科学领域中。超高维数据分析对传统的计算方法和统计理论提出了新挑战。本项目研究分析超高维数据的独立筛选变量方法。与传统变量选择方法非常不同,独立筛选变量方法计算简单,因此在分析超高维数据时非常具有吸引力。本项目研究如下内容:(1)基于效应稀疏原理,构造不依赖于模型具体形式的独立变量筛选方法;(2)由于基于边际模型构造的独立筛选变量方法可能漏选部分与因变量边际独立的重要变量,我们利用迭代算法并借用半参数双稳健性构造新的独立变量筛选法来解决这一问题;(3)确定变量筛选方法保留变量的个数,尽可能保留全部的重要变量且尽可能多地剔除不重要变量;以及(4)在较弱条件下研究这些不依赖于模型的独立筛选变量法的理论性质,希望这些独立筛选变量法具有选择相合性或排序相合性。另外,我们将这些新方法应用于一些重要的科学问题,以期得到一些有意义的科学新发现。

项目摘要

在基金项目的支持下,项目组基于效应稀疏原理,构造了一系列不依赖于模型具体形式的独立变量筛选方法。为了尽可能保留全部的重要变量且尽可能多地剔除不重要变量,我们讨论了筛选后保留变量的数量。我们证明了这些变量筛选方法确定筛选性与排序相合性,并将新方法应用于生物等科学领域,取得了一批有影响力的学术成果。国际统计学顶级或SCI学术期刊上发表论文17篇,接受5篇。项目组培养了研究超高维数据降维的硕士研究生6人,均已顺利毕业和就业。博士研究生5人,3人在读,2人顺利毕业入职高校。博士后1名。课题组参加了7次国际会议和7次国内会议来宣传研究成果。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

氟化铵对CoMoS /ZrO_2催化4-甲基酚加氢脱氧性能的影响

氟化铵对CoMoS /ZrO_2催化4-甲基酚加氢脱氧性能的影响

DOI:10.16606/j.cnki.issn0253-4320.2022.10.026
发表时间:2022
3

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

城市轨道交通车站火灾情况下客流疏散能力评价

城市轨道交通车站火灾情况下客流疏散能力评价

DOI:
发表时间:2015

朱利平的其他基金

批准号:11071077
批准年份:2010
资助金额:25.00
项目类别:面上项目
批准号:51773175
批准年份:2017
资助金额:58.00
项目类别:面上项目
批准号:81071333
批准年份:2010
资助金额:35.00
项目类别:面上项目
批准号:10701035
批准年份:2007
资助金额:16.00
项目类别:青年科学基金项目
批准号:50803054
批准年份:2008
资助金额:20.00
项目类别:青年科学基金项目
批准号:51573159
批准年份:2015
资助金额:65.00
项目类别:面上项目
批准号:81571968
批准年份:2015
资助金额:60.00
项目类别:面上项目
批准号:81271803
批准年份:2012
资助金额:70.00
项目类别:面上项目
批准号:51273176
批准年份:2012
资助金额:79.00
项目类别:面上项目

相似国自然基金

1

超高维病例队列数据的联合变量筛选研究

批准号:11801567
批准年份:2018
负责人:刘祎
学科分类:A0403
资助金额:25.00
项目类别:青年科学基金项目
2

删失数据超高维共线性模型的变量选择

批准号:11726616
批准年份:2017
负责人:董莹
学科分类:A0403
资助金额:10.00
项目类别:数学天元基金项目
3

删失数据超高维共线性模型的变量选择

批准号:11726615
批准年份:2017
负责人:唐年胜
学科分类:A0403
资助金额:20.00
项目类别:数学天元基金项目
4

超高维生存数据变量筛选和选择中若干问题的研究

批准号:11501573
批准年份:2015
负责人:陈晓林
学科分类:A0403
资助金额:18.00
项目类别:青年科学基金项目