The main results about high dimensional data analysis, a hot field in statistics, focus on parameter estimation and variable selection and related topics, and there are relatively few conclusions on high dimensional testing. The semi-parametric models are more applicable than linear models. Based on these two points, we will concentrate on testing for high dimensional semi-parametric models. Besides, in most cases there exists prior information and significance of part coefficients in the models is paid more attention, especially in analyzing financial data and survival data. We divide these testing problems into two cases with p<n and p>n by the relationship between covariates dimension p and sample size n. Under the framework of high dimensional partially linear models, this project will estimate the nonparametric components in the models by tools of spline, kernel, conditional expectation, matrix manipulation and so on, then construct generalized F statistic and generalized U statistic based on F and U statistics to effectively test the significance of some covariates, explore asymptotic properties of test statistics and powers of tests under alternative hypotheses, and further propose new tests for significance of specified covariates. In this procedure, we do not assume the distribution of the error term. At last, these tests will be implemented in analyzing financial data and gene-related data.
高维数据分析是当前研究的热点,其研究成果集中在参数估计和变量选择等方面,关于高维情形的假设检验结论相对较少。与线性模型相比,半参数模型具有更广泛的适用性。基于以上两点,本课题研究高维半参数模型中协变量的检验问题。另外,在金融数据和生存数据分析中,往往存在先验信息,部分协变量的显著性检验问题更受关注。本项目依据变量维数p与样本量n的关系,将该检验问题划分为p<n和p>n两种情形。我们在高维部分线性模型框架下,不限定误差分布,借助样条、核估计等非参数方法、条件期望的性质和矩阵论等工具对模型非参数部分进行估计,在此基础上基于F、U统计量分别构造广义F统计量、广义U统计量,用于检验部分协变量显著性,并探讨统计量在不同备择假设下的渐近性质,得到检验的功效,提出有效检验高维部分线性模型协变量显著性的方法,进一步发展针对特定个数协变量显著性检验的新方法,最后将理论成果应用于金融数据和基因数据的统计分析。
作为研究热点的高维数据分析,其研究成果集中在参数估计和变量选择等方面,关于高维情形的假设检验结论相对较少。与线性模型相比,半参数模型具有更广泛的适用性。基于以上两点,本项目主要研究几类高维半参数模型中协变量的检验问题。此外,在研究过程中我们对高维半参数模型的协变量类型进行了扩展,考虑了协变量中包含函数型数据、直方图数据、区间数据等情形时的估计和检验问题。本项目依据变量维数p与样本量n的关系,将该检验问题划分为p<n和p>n两种情形。本项目主要完成了p<n时部分线性模型的F检验统计量的构造及理论性质的证明,p>n时高维部分线性模型中广义U统计量的构造及其大样本性质用于检验回归系数的显著性,p随着n变化时的高维函数型数据回归模型的稳健变量选择和估计问题及相关理论性质,p<n时含有函数型协变量的广义线性模型的参数估计问题,直方图数据的主成分分析方法及其并行实现,相依删失情形下加速失效模型的广义M估计及其理论性质,含有区间数据类型协变量的部分线性模型的估计和检验问题,误差服从非对称拉普拉斯分布情形的混合回归模型的EM参数估计方法。在项目开展过程中,我们基于上述方法分析北京市空气质量宏观指标中对门诊急诊病人数量有显著影响的因素,对三碘甲状腺原氨酸合成具有显著作用的基因片段进行识别,对国际黄金价格和美元指数的时序数据进行谱分析寻找隐周期,基于电影评分网站数据使用直方图主成分分析方法进行电影评分排序等。本项目从理论上对高维回归模型的假设检验问题和估计方法进行了研究,对传统统计方法有所改进,实践中基于本项目的研究成果分析实际数据得到了具有现实意义的结果。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究
高维半参数回归模型中的若干检验问题
高维参数和半参数模型下的似然推断
稀疏高维半参数模型的稳健统计推断
高维非参数和半参数统计模型中自适应方法的研究