The widespread availability of modern big data brings both abundant opportunities and unprecedented challenges to statistical research. The analysis, modeling, and inference of low-dimensional, interpretable structures in high-dimensional, complex data is the key to effective extraction of information from the data and giving rise to important scientific discoveries. This project proposes to systematically study the statistical modeling and inference of high-dimensional data with complex dependence structures from sparse and low-rank modeling perspectives. Motivated by diverse types of data and real applications, we will develop principled and scalable statistical methods and investigate related theoretical issues. We will concentrate on the following problems: (1) sparse and low-rank methods in general high-dimensional statistical models, and high-dimensional instrumental variables regression applicable to the analysis of genetical genomics data; (2) two-sample tests of means and inferences of basis covariance and graphical models for high-dimensional compositional data, as well as methods of high-dimensional analysis based on multinomial counts data; (3) divide-and-conquer strategies, high-dimensional variable selection, and methods of multivariate analysis for spatio-temporal data; (4) the point process modeling of dynamic networks, and methods of network analysis based on Cox regression and frailty models.
当代大数据的广泛获取为统计学研究的发展注入了新的活力,也提出了前所未有的挑战。对高维复杂数据中的低维且具有良好解释性结构的分析、建模及推断,是从数据中挖掘有效信息、推动重大科学发现的关键。本项目提出基于稀疏与低秩建模的观点,系统性地研究具复杂相依结构的高维数据的统计建模及推断问题。我们将针对不同数据类型和实际应用,发展基于严格统计原理并能高效计算实现的统计方法,并深入研究相关理论问题。我们将重点研究以下问题:(1)一般高维统计模型中的稀疏与低秩方法,以及适用于遗传基因组数据分析的高维工具变量回归方法;(2)高维成分数据的两样本均值检验、基协方差矩阵与图模型推断,以及基于多项计数数据的高维分析方法;(3)时空数据的分治策略、高维变量选择及多元分析方法;(4)动态网络的点过程建模,以及基于Cox回归和脆弱模型的网络分析方法。
当代大数据的广泛获取为统计学研究的发展注入了新的活力,也提出了前所未有的挑战。对高维复杂数据中的低维且具有良好解释性结构的分析、建模及推断,是从数据中挖掘有效信息、推动重大科学发现的关键。本项目基于稀疏与低秩建模的观点,研究具有复杂相依结构高维数据的统计建模及推断。项目主要以微生物组与宏基因组学数据、大气污染与环境大数据等作为应用驱动,发展基于严格统计原理并能高效计算实现的统计方法,并深入研究相关理论问题。项目取得了如下重要进展:. (1)建立高维复杂数据稀疏和低秩建模的一般框架. 针对一般高维回归模型,提出一种带隐变量的非稀疏学习方法,结合因子和稀疏结构调整混杂因素;考虑适用于大规模关联学习问题的多元回归模型,针对系数矩阵具有稀疏正交因子结构的情形,发展了具有理论保证的正则化方法及优化算法;利用高维且可能无效的工具变量,提出多原因推断的两阶段正则化框架,拓展了传统工具变量方法的适用情形。. (2)在高维成分数据分析方面取得开拓性成果. 针对高维成分数据,提出一种基于中心对数比变换的两样本均值检验方法;提出基于成分调整阈值化的大协方差矩阵估计方法,首次阐明了基协方差的近似可识别条件,揭示了维数的“诅咒”与“祝福”之间的权衡关系;发展了一种基于随机近似EM和汉密尔顿蒙特卡洛的高效算法,以及基于条件数的正则化方法,解决了逻辑正态多项模型用于高维计数数据的计算困难。. (3)在环境时空大数据方面取得重要方法和应用进展. 针对空气质量特别是PM2.5浓度数据,提出基于初始误差传输模型的PM2.5预报方法,显著改进预报效果;提出气象混杂的非参数时空调整方法,用于区域空气质量的客观评估;发展了一种基于集合最优插值的排放源反演方法,可为实时预报系统快速更新排放源并降低其不确定性。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
论大数据环境对情报学发展的影响
低轨卫星通信信道分配策略
城市轨道交通车站火灾情况下客流疏散能力评价
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
高维异构数据的稀疏表达与复杂关系推断
高维数据驱动稀疏低秩优化问题有效算法的研究及其应用
高维网络数据建模及其渐近推断
基于稀疏优化和低秩矩阵分解的高维图像重建研究