It is well known that variables selection approach in high dimensional data analysis is in stage of the selecting variables and parameter estimation which is lack of statistical testing for some interested variables. Meanwhile, there are few statistical testing methods for the statistical model of high dimensional data with sparse case as well as fast dimension reduction method for ultra-high dimension data. This project will explore some new methods in these two fundamental statistical problems, and hopefully to establish some new methodologies and theory, which including three aspects as following. 1. Find out some new methods not only for selecting variables, but also for estimation, and at same time for statistical testing of interested variables in the high dimensional data with sparse case and auxiliary information. 2. Propose some new theory and techniques for cluster dimension reduction in high-dimensional data with sparse case. 3. Propose some new theory and methods for feature screening in ultra-high dimensional data with sparse case. These new methods for high dimensional and complicate data analysis can be used to image CT detection and imaging, GWAS data analysis and so on, it will also provide advanced data analysis methods in some application fields, such as information, biomedicine sciences, and enrich data analysis theory and methodologies.
关于高维数据的变量选择方法目前还处在变量的选择与估计阶段,而缺乏统计检验功能,对于高维稀疏数据模型下的统计检验以及超高维数据下的快速变量降维方法也甚少。本项目拟在这两个统计学基础课题上开展深入研究,并有望取得突破性成果。具体我们将在带有附加信息的高维高维稀疏数据的变量选择方法上提出既能选择与估计,同时又能进行统计检验的新方法;提出高维稀疏数据的聚类降维新理论和技术;提出超高维稀疏数据下的扫描的新理论和方法。这些新的高维复杂数据的分析方法可应用于CT检测成像,GWAS等数据分析中去、为信息技术、生物医学等研究领域提供先进的数据分析方法,丰富高维复杂数据的统计理论和分析方法。
本项目针对项目任务书中的研究内容逐一开展研究并圆满完成既定任务。对于(超)高维线性模型、部分线性模型以及广义线性模型等几类重要的带有模型信息高维稀疏数据类型,我们获得了如下重要成果:对于高维部分线性回归模型,基于F-统计量的思想提出了检验回归系数的广义F-检验统计量,获得了广义F-检验的优良性质;对于稀疏情形下的变量选择和参数假设检验问题,提出了新的部分惩罚经验似然比检验方法,做到在变量选择的同时又能进行假设检验,并建立了优良的统计理论性质;对于部分回归系数检验问题,我们基于二阶纠偏U统计量和交叉验证方差估计的方法提出了关于它的检验以及稳健检验新方法,显著提高了检验功效。对于带有聚类或类别变量的超高维稀疏数据分析,我们提出了新的模型自由的均值-方差(MV)扫描的新技术方法和理论;对于聚类降维的超高维的单指标模型,我们提出了惩罚的分位数回归和独立的稳健变量扫描新方法,获得了诸多优良的统计理论性质。对于一类重要的高维稀疏结构特征高维协方差阵的线性结构的检验问题,我们提出了基于LS参数估计、熵距离以及二次距离的新检验技术方法,获得了优良的统计理论性质。对于高维因子稀疏结构模型中的高维协方差阵,以及高维稀疏线性模型中误差分布的估计等问题,我们提出了基于分样本技术和变量选择方法获得新的检验和估计方法,并得到了优良的统计理论性质。对于半函数型线性模型,我们利用函数型系数和光滑函数的样条逼近方法,给出了该模型下的SIEVE M-估计,获得了估计优良理论性质。解决了可变分组数卡方检验的相合性基本理论问题,并给出了检验统计量和相应的卡方随机变量的K-S距离的收敛速率。这些新的高维复杂数据的分析方法已应用于CT检测成像降噪,金融数据模型分析、GWAS、癌症等数据分析中去,得到了良好的效果,丰富了高维复杂数据的统计理论和分析方法,其成果大部分已经发表在统计权威期刊杂志上。
{{i.achievement_title}}
数据更新时间:2023-05-31
监管的非对称性、盈余管理模式选择与证监会执法效率?
粗颗粒土的静止土压力系数非线性分析与计算方法
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
中国参与全球价值链的环境效应分析
缺失响应数据下高维稀疏分位数回归模型的变量选择
带潜变量高维模型的统计推断
稀疏高维半参数模型的稳健统计推断
基于概率生成模型的高维数据变量选择