超高维数据的变量筛选方法

基本信息

批准号：11371236

项目类别：面上项目

资助金额：55.00

负责人：朱利平

学科分类：

依托单位：上海财经大学

批准年份：2013

结题年份：2017

起止时间：2014-01-01 - 2017-12-31

项目状态：已结题

项目参与者：冯兴东,柏杨,辛欣,邱峰,周亭攸,李静怡,朱晓晨

关键词：

变量筛选超高维数据确定筛选性质相关性学习独立筛选法

结项摘要

In recent years, ultrahigh dimensional data arises frequently in many scientific fields, such as biology and medical science. How to analyze ultrahigh dimensional data poses many challenges to conventional computational algorithm and statistical theory. In this project, we aim to study independent screening procedures for ultrahigh dimensional data. Unlike conventional variable selection techniques,independent screening procedures are computationally efficient, which makes them very appealing in ultrahigh dimensional data analysis. We investigate the following four issues. (1) With the sparsity principle, we design new model-free independent screening procedures for analyzing ultrahigh dimensional data; (2) borrowing the idea of double robustness in semiparametrics, we design new iterative procedures to address the issue that the existing independent screening procedures may miss some important predictors which are marginally irrelevant to the response variable; (3) we discuss how to decide the number of predictors which should be retained after the screening procedure, in order to keep all important predictors while removing as many unimportant predictors as possible; and (4) we establish some theoretical properties, including the ranking consistency property and the selection consistency property if possible, for the new model-free independent screening procedures under mild conditions. In addition, we apply newly proposed independent screening procedures to adress some important scientific questions, intending to make some interesting scientific observations.

近年来，超高维数据频繁地出现在生物及医学等诸多科学领域中。超高维数据分析对传统的计算方法和统计理论提出了新挑战。本项目研究分析超高维数据的独立筛选变量方法。与传统变量选择方法非常不同，独立筛选变量方法计算简单，因此在分析超高维数据时非常具有吸引力。本项目研究如下内容：（1）基于效应稀疏原理，构造不依赖于模型具体形式的独立变量筛选方法；（2）由于基于边际模型构造的独立筛选变量方法可能漏选部分与因变量边际独立的重要变量，我们利用迭代算法并借用半参数双稳健性构造新的独立变量筛选法来解决这一问题；（3）确定变量筛选方法保留变量的个数，尽可能保留全部的重要变量且尽可能多地剔除不重要变量；以及（4）在较弱条件下研究这些不依赖于模型的独立筛选变量法的理论性质，希望这些独立筛选变量法具有选择相合性或排序相合性。另外，我们将这些新方法应用于一些重要的科学问题，以期得到一些有意义的科学新发现。

项目摘要

在基金项目的支持下，项目组基于效应稀疏原理，构造了一系列不依赖于模型具体形式的独立变量筛选方法。为了尽可能保留全部的重要变量且尽可能多地剔除不重要变量，我们讨论了筛选后保留变量的数量。我们证明了这些变量筛选方法确定筛选性与排序相合性，并将新方法应用于生物等科学领域，取得了一批有影响力的学术成果。国际统计学顶级或SCI学术期刊上发表论文17篇，接受5篇。项目组培养了研究超高维数据降维的硕士研究生6人，均已顺利毕业和就业。博士研究生5人，3人在读，2人顺利毕业入职高校。博士后1名。课题组参加了7次国际会议和7次国内会议来宣传研究成果。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：

发表时间：

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：10.1360/SSM-2020-0035

发表时间：2020

朱利平的其他基金

批准号：11071077

批准年份：2010

资助金额：25.00

项目类别：面上项目

批准号：51773175

批准年份：2017

资助金额：58.00

项目类别：面上项目

批准号：81071333

批准年份：2010

资助金额：35.00

项目类别：面上项目

批准号：10701035

批准年份：2007

资助金额：16.00

项目类别：青年科学基金项目

批准号：50803054

批准年份：2008

资助金额：20.00

项目类别：青年科学基金项目

批准号：51573159

批准年份：2015

资助金额：65.00

项目类别：面上项目

批准号：81571968

批准年份：2015

资助金额：60.00

项目类别：面上项目

批准号：81271803

批准年份：2012

资助金额：70.00

项目类别：面上项目

批准号：51273176

批准年份：2012

资助金额：79.00

项目类别：面上项目

相似国自然基金

超高维病例队列数据的联合变量筛选研究

批准号：11801567

批准年份：2018

负责人：刘祎

学科分类：A0403

资助金额：25.00

项目类别：青年科学基金项目

删失数据超高维共线性模型的变量选择

批准号：11726616

批准年份：2017

负责人：董莹

学科分类：A0403

资助金额：10.00

项目类别：数学天元基金项目

删失数据超高维共线性模型的变量选择

批准号：11726615

批准年份：2017

负责人：唐年胜

学科分类：A0403

资助金额：20.00

项目类别：数学天元基金项目

超高维生存数据变量筛选和选择中若干问题的研究

批准号：11501573

批准年份：2015

负责人：陈晓林

学科分类：A0403

资助金额：18.00

项目类别：青年科学基金项目

超高维数据的变量筛选方法

{{i.achievement_title}}

暂无此项成果

其他相关文献

一种基于多层设计空间缩减策略的近似高维优化方法

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

智能煤矿建设路线与工程实践

二维FM系统的同时故障检测与控制

现代优化理论与应用

朱利平的其他基金

超高维半参数回归模型的统计推断

基于儿茶酚化学的自具微孔聚合物复合膜结构调控及其分子分离性能研究

健康成人隐球菌易感性的病原模式识别受体功能缺陷研究

回归中高维数据的“充分”降维

基于聚多巴胺超强附着行为的PVDF微孔膜表面修饰及其机理研究

自支撑高强度水凝胶膜的结构调控及其渗透分离性能研究

基于同胞兄妹肺隐球菌病易感基因的精细定位与功能分析

隐球菌脑膜炎患者染色体9q33.1区域易感位点的定位与验证

多巴胺的自聚-组装行为及其多功能膜与纳米微球的研究

相似国自然基金