In real practice, high dimensional data are becoming increasingly available. In contrast, relevant statistical methods are not well developed. During the past 5-10 years, much progress has been made for high dimensional variable selection methods. However, much less has been done for corresponding testing problems. This happens to be one of the most frontier research topics in the past one or two years. Based on the current research and literature progress, this study intends to make important and further contributions on the following perspectives: (1) ultra high dimensional data analysis with a factor structure (most current results are based on non-factor structures); (2) high dimensional partial tests (most existing methods are for global tests); (3) high dimensional data mining methods (past studies mainly considered classical regression or multivariate models); and (4) large scale network data (most existing literatures are based on independent assumptions). As a result, the outputs of this study would further enrich the theory of high dimensional testing substantially.
在实际研究工作中,人们碰到的高维数据越来越多,而相应的统计方法的发展相对滞后。在过去的5-10年里,高维数据的变量选择方法获得了很大的发展,而在假设检验方面却建树甚微。这恰恰是最近一两年刚刚兴起的研究前沿。本课题将根据现有的研究以及文献进展,在以下各个方面做重要且深入的贡献:(1)考虑在因子结构下的超高维假设检验问题,而现有的结果都假设无因子结构;(2)考虑高维部分检验(Partial Test),而现有的结果都只考虑了全局检验(Global Test);(3)考虑高维数据挖掘方法的假设检验(例如:Na?ve Bayes),而现有的结果只考虑了经典的回归或者多元模型;(4)考虑大规模网络数据(Network Data)的假设检验问题,而现有的结果都基于独立同分布假设。本课题的成果将极大地丰富并发展现有的高维假设检验理论。
项目的背景:超高维数据分析是这些年统计研究的重点前沿,而同超高维数据相关的假设检验问题备受关注。过去这些年里,众多学者在超高维假设检验方面做出了卓有成效的贡献。但是,这些研究几乎都没有考虑到超高维数据的因子结构特征,也没有考虑类似于复杂网络结构下的检验问题,对相关的数据挖掘算法缺乏深入研究。而本项目的目的就是希望尽最大努力填补这些重要的空白领域。..研究内容:根据申请书的研究计划,研究内容主要集中(但是不局限于)这么几个方面:(a)回归分析框架下高维数据检验问题;(b)因子结构下的假设检验问题;(c)其他相关问题。..重要结果:本研究成果丰硕,前后共有22篇相关文章被国际知名学术期刊接收(或者已经发表)。其中最重要的结果集中在这么几个方面。(a)在因子结构下,我们发现,大量被研究过的检验统计量,它们的极限分布不再正态。取而代之的是,平移而且加权后的卡方分布;(b)对于超高维回归模型而言,检验单个回归系数的显著性是可行的。这里的关键是要排除主要相关变量的干扰;(c)其他相关研究成果。..关键数据:本项目共完成论文22篇。负责人受邀在国内外学术报告做邀请报告23次(不含团队其他成员)。..科学意义:丰富了超高维假设检验的理论框架。主要丰富了一下几个方面的内容:(a)具有因子结构的超高维数据的假设检验问题;(b)超高维回归模型中,对单个系数的检验;(c)其他相关研究问题。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
论大数据环境对情报学发展的影响
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
跨社交网络用户对齐技术综述
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
基于充分降维方法的高维数据假设检验问题的研究
高维回归系数的假设检验
基于惩罚似然和经验似然方法的高维数据假设检验问题研究
高维半参数模型假设检验问题的研究