The classical methods used in high dimensional data analysis usually impose strong assumptions on the model. For example, the data follows from sub-Gaussian distribution, or variables are weakly correlated. However, these assumptions may fail in practice. The robust methods which relax these assumptions greatly have attracted a lot of attentions recently. In the fields of biology and medical science, matrix/tensor-valued data are commonly encountered. This type of data usually has the structural information. Taking the structural information into account, we study the robust estimate on matrix/tensor-valued data. The project contains three parts: (1) the robust estimate and outlier detection for high dimensional matrix/tensor-valued data in regression and classification; (2) the robust variable screening for high dimensional matrix/tensor-valued data; (3) the robust estimate of the covariance matrix for matrix/tensor-valued data. This project is of great value in both statistical theories and application in biology and medical science.
高维数据分析的经典方法通常对模型有较多假设,如数据服从(次)高斯分布、变量之间相关性较弱等。在实际问题中,这些假设不一定能满足。进一步放松这些假设,发展对模型假设不敏感的稳健估计方法受到人们关注。生物、医学等领域中经常需要对矩阵(张量)值数据进行建模。这类数据通常具有一定结构信息,充分利用数据结构可以得到更有效的估计。本项目研究矩阵(张量)值数据的稳健建模问题,主要包括三个内容:(1)高维矩阵(张量)值数据的稳健回归(分类)方法和异常点检测;(2)高维矩阵(张量)值数据的稳健变量筛选;(3)高维矩阵(张量)值数据协方差矩阵的稳健估计。本项目不仅具有很高的理论价值,而且相关成果在生物,医学等领域具有重要应用价值。
在生物、医学、经济等众多领域中经常需要对高维数据进行建模。尽管高维数据统计分析已经取得了很大进展,但是许多问题有待进一步研究。本项目将对高维矩阵值数据稳健估计中若干问题进行研究。所取得的主要研究成果如下:一、对高维矩阵值数据,我们研究了矩阵值数据行列效应显著性的统计推断问题,给出了行列筛选方法。研究了矩阵或张量值数据的协方差矩阵的稳健估计问题,在协方差矩阵以及相关系数矩阵具有不同结构下(Kronecker乘积结构等),基于kendall相关系数给出了稳健估计。研究表明,相关系数矩阵估计具有更好的收敛性质,而协方差矩阵的估计不具有类似性质。二、矩阵值数据的研究需要充分借鉴向量值数据的研究方法和思路。本项目部分研究内容在向量值情形下,已有文献的研究还有明显不足。为此,我们首先对向量值数据进行了研究并将思路和方法拓展到矩阵值数据中。具体地,我们提出新的影响点检测方法以及稳健的异常度量;针对分层分类问题,提出了新的类别映射方法并发展了稳健分层分类方法。相关研究方法和思路被进一步拓展到矩阵值数据中。本项目还对其他问题进行了探索。这些研究成果具有重要的理论和应用价值,将进一步推动统计学在生物,经济,医学等领域的应用。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
稳健变量选择与高维数据分析
高维因子模型因子个数的稳健估计和诊断检验
高维纵向数据的若干稳健变量选择方法研究
多传感器系统中的稳健估计融合