With the rapid development of data collection technology, modern data are often large and structured. Unlike traditional vector-valued data, those high dimensional matrix-/array-valued data sets are structured with each dimension representing different information. How to reduce the dimensions of those structured objects and extract useful information while preserving the underlying structure interpretation, poses great challenges to statistical research. This project aims to explore new sufficient dimension reduction theory, methods and applications on those structured data. And hereafter, we use sufficient dimension folding to specify the technology for reducing dimensions of those data without losing any information. First, we perform sufficient dimension folding in reference to a functional of the conditional distribution of response given matrix-/array-valued predictors, and establish its theoretic prosperities as well as general estimation methods. Second, new sufficient dimension folding methods based on ensemble are proposed to estimate the central dimension folding subspace. Those methods do not require strong assumptions on distributions of predictors or response. At last, we consider variable selection in sufficient dimension folding to enhance the model accuracy. The proposed methods will be applied to multivariate longitudinal data and stock change rate data. This project will provide new tools to select biomarkers associated with disease and analyze change rates of financial markets.
随着数据收集技术的高速发展,当今数据呈现向高维化和结构化同时发展的趋势。不同于传统随机向量形式的数据,此类结构化、以多维数组形式存在的数据,每一维度都包含了一定的信息。如何充分地降低此类结构化数据的各个维度,从中提取有用信息,同时保持数据的结构性,给统计学研究带来了新的挑战。本项目旨在研究此类数据充分降维的理论、方法及其应用。首先,提出自变量在因变量条件分布泛函空间上充分降维的概念、研究其理论性质并构建具有一般性的估计方法;其次,基于对自变量关于因变量条件均值空间充分降维方法的研究,提出通过叠加中心条件均值充分降维空间,以估计关于条件分布函数充分降维空间的方法,从理论上去除现有方法对于变量分布假设条件的依赖;再其次,研究此类数据充分降维时变量选择的问题,以提高模型预测的准确性。以上方法将被应用到医学高维纵向数据以及股票变化率数据,为疾病侦测以及金融市场变动的研究提供分析工具。
本研究项目着重于高维数据充分降维的理论、方法与应用研究,特别是关于矩阵/数组型高维数据的充分降维方法及其应用。伴随数据科学的发展,数据的多样性特别是高维化和结构化同时发展的趋势挑战了传统的数据分析方法。不同于传统随机向量形式的数据,此类结构化、以多维数组形式存在的数据,每一维度都包含了一定的信息。如何充分地降低此类结构化数据的各个维度,从中提取有用信息,同时保持数据的结构性,给统计学研究带来了新的挑战。本项目提出关于矩阵/数组型高维数据条件均值的充分降维以及在因变量条件分布泛函空间上充分降维的概念、理论性质以及估计方法;同时基于对自变量关于因变量条件均值空间充分降维方法的研究,提出通过整合中心条件均值充分降维空间,以估计关于条件分布函数充分降维空间的方法,从理论上去除现有方法对于变量分布假设条件的依赖;另外,本研究项目还提出了利用新的判断准则进行高维数据充分降维。以上方法被应用到医学高维纵向数据、股票变化率数据以及一组机器学习数据,为疾病侦测、金融市场变动以及机器学习的研究提供分析工具。
{{i.achievement_title}}
数据更新时间:2023-05-31
监管的非对称性、盈余管理模式选择与证监会执法效率?
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
基于LASSO-SVMR模型城市生活需水量的预测
基于分形维数和支持向量机的串联电弧故障诊断方法
基于二维材料的自旋-轨道矩研究进展
高维稀疏矩阵降维方法的理论研究与应用
基于随机矩阵理论的高维数据统计分析
基于充分降维方法的高维数据假设检验问题的研究
数据缺失时高维数据降维分析的方法、理论与应用