New high-dimensional statistical learning algorithms need an urgent development because the “high-dimensional low sample size” data widely arises from chemometrics and other fields. In this project, firstly we investigate the sparse models for high-dimensional data by penalized least square sparse variable selection technique. Sparse kernel principal component analysis(SKPCA) and sparse kernel partial least square regression(SKPLS) are established by kernel methods based on sparse principal component analysis(SPCA) and sparse partial least square regression(SPLS), respectively. SKPCA and SKPLS can process high-dimensional strongly correlated data without the linear assumption between the response and the predictors. Thus SKPCA and SKPLS can perform the sparse variable selection in the case of nonlinear pattern. Secondly, the number of predictors of near-infrared(NIR) spectroscopic data is much larger than the number of observations, and the predictors often exhibit multi-collinearity. How to screen the key wavelength of the NIR data is still a challenge in spectral analysis technique. This project also investigate wavelength selection of NIR data using several penalized least square sparse alogrithms(e.g. Elastic-net, Group LASSO,SPCA,SPLS,SKPCA and SKPLS ) in order to estibalish more parsimony and interpretable models, as we as provide effective algorithms and tools for people dealing with NIR data.
多变量小样本的高维数据在化学计量学等领域的广泛出现急需我们探索和研究新的高维统计学习算法。本项目首先采用惩罚最小二乘稀疏变量选择方法研究高维数据的稀疏模型,在稀疏主成分分析(SPCA)和稀疏偏最小二乘回归(SPLS)的基础上利用核方法建立稀疏核主成分分析(SKPCA)和稀疏核偏最小二乘回归(SKPLS)。SKPCA和SKPLS能用于非线性模式下的稀疏变量选择,非常适合高维强相关数据的处理。其次,近红外光谱(NIR)数据具有多变量小样本、多维共线性性的特点,怎样对其波长进行筛选一直是光谱分析技术中的一个难点。本项目采用Elastic-net、组LASSO、SPCA、SPLS、SKPCA和SKPLS等多种惩罚最小二乘稀疏变量选择算法对NIR数据的波长进行筛选,以建立更简约、更具解释性的稀疏模型,为NIR数据分析者提供有效的算法和分析工具。
本项目以在化学计量学等领域广泛出现的多变量小样本的高维数据为研究对象,并借鉴了近年来高维数据分析方面的新思路和新算法,得到如下研究成果:.1)高维强相关数据的组变量选择算法。本研究主要针对高维数据预测变量的强相关性建立组变量选择模型。一方面,我们结合两种分别由弹性网和权融合LASSO诱导出的组变量选择机制,提出了权融合弹性网模型,该模型能够统一在LASSO的框架下并能高效地计算。权融合弹性网算法非常适用于高维共线性数据的变量选择。另一方面,我们考虑变量选择的神谕性(oracle property),即变量选择的一致性和估计系数的渐进正态性。权融合自适应弹性网模型是权融合弹性网的推广,我们从理论上证明了它具有神谕性。模拟数据和现实数据的实验结果表明在分析高维共线性数据时,权融合自适应弹性网模型较之其它相关的算法具有竞争优势。.2)变量选择算法的应用。本研究主要是利用权融合弹性网,权融合自适应弹性网和现有的变量选择模型对化学计量学,经济学等领域中具有强相关性的高维数据进行分析处理。一方面我们就权融合弹性网和权融合自适应弹性网模型中参数的选取进行了说明。另一方面,我们利用偏最小二乘估计对房地产数据进行了分析,找出了与房价最相关的因素。.本研究是当代统计学的热点问题,适应了实际问题中对复杂数据分析的需要,是一项有价值的探索。其相关研究成果不仅为高维数据分析提供理论和方法上的支持,还能为广大实际工作者提供技术上的参考。本项目如期完成预期目标,发表SCI、EI以及CSSCI论文各一篇。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
基于一维TiO2纳米管阵列薄膜的β伏特效应研究
论大数据环境对情报学发展的影响
氟化铵对CoMoS /ZrO_2催化4-甲基酚加氢脱氧性能的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
小样本高维宏观经济变量动态面板数据模型诊断理论及其应用
高维数据检验问题中的稀疏方法及其应用
小样本高维宏观经济统计数据计量经济联立模型诊断理论及其应用
极限学习机拓展研究及其在近红外光谱分析中的应用