Longitudinal data is a frontier problem in the current statistical research, and its main difficulty is that how to use within group correlation of the data to perform statistical inference effectively. However, the results considering within group correlation with longitudinal data at present mainly concentrate in the discussion under cases with the complete data and fixed dimension. Therefore, based on modeling the within group correlation structure, this project focuses on the statistical inference for several complex longitudinal data models with missing data, outliers and high dimensional data, for example, partially linear models for longitudinal missing data, varying coefficient models with longitudinal high dimensional data and so on. The main research contents include: (1) with missing data and based on modeling the correlation structure, study parameter estimation and variable selection for partially linear models with longitudinal data and other complex longitudinal data models; (2) based on complex longitudinal data models and with the situation that consists outliers in the data, we intend to model the correlation structure and propose efficient robust estimation methods and robust variable selection methods; (3)based on the covariance decomposition, we propose Bayesian analysis and variable selection methods for semiparametric mixed effects models and other models with complex longitudinal data. In addition, the project will also provide the statistical theory, method and technology support for analyzing complex longitudinal data arising in econometrics, biomedical and other disciplines.
复杂纵向数据分析是当今统计学研究的一个前沿问题,且其研究最大难点在于如何充分利用数据的组内相关性从而进行有效的统计推断。然而目前考虑组内相关性的研究主要集中在完全数据和固定维数等情形下展开讨论.因此本项目基于组内相关结构建模重点研究含缺失数据、异常值数据以及高维数据等情况下若干复杂纵向数据模型的统计推断,诸如纵向缺失数据部分线性模型、纵向高维变系数模型等.研究内容主要包括:(1)在纵向缺失数据下,基于相关结构建模方法研究部分线性模型等复杂纵向数据模型的参数估计与变量选择等统计推断问题;(2)在复杂纵向数据中存在异常值的情形下提出能够基于相关结构建模的有效稳健估计方法和稳健变量选择方法;(3)基于协方差分解,提出复杂纵向数据下半参数混合效应模型等的变量选择与贝叶斯分析方法.另外,本项目也将为在计量经济学、生物医学等学科中出现的复杂纵向数据的分析提供相应的统计理论、方法和技术支持.
在医学、生物学、计量经济学等领域常常会出现纵向缺失数据、纵向高维数据等复杂纵向数据,因此目前越来越多的统计学家致力于研究和发现此类数据模型的参数估计等有效推断方法。本项目以纵向数据为主要背景框架深入研究探讨了纵向数据,高维纵向缺失数据,函数型数据,空间数据等复杂数据下相关模型的贝叶斯估计、分位数估计和变量选择等统计推断,以及结合经济、生物医学等学科中的一些实际复杂数据作相关统计分析,为这些学科的研究和发展提供新的统计分析方法.其中获得的研究成果主要包括(1)基于改进的Cholesky分解以及采用B样条逼近非参数部分,研究分析了纵向数据下半参数联合均值协方差模型的贝叶斯估计和贝叶斯统计诊断。(2)在响应变量带有单调缺失的情形下研究了高维纵向部分线性回归模型的变量选择。主要基于逆概率加权光滑阈广义估计方程提出了一种自动的变量选择方法,该方法可以自动地剔除零回归系数,同时得到非零回归系数的估计;在一定正则条件下,获得了该变量选择方法具有Oracle性质。(3)针对二元响应数据下的纵向Logistic混合效应模型,其中假定随机效应服从Dirichlet过程,采用基于Pólya-Gamma辅助潜变量增广的技术研究了模型的贝叶斯估计和贝叶斯模型比较。(4)基于Gibbs抽样和Metropolis-Hastings算法相结合的混合MCMC算法,研究分析了部分线性变系数空间自回归模型的贝叶斯估计,其中非参数系数部分使用B样条逼近。(5)针对响应变量随机缺失下函数型数据模型,采用逆概率加权分位数估计获得非参数函数的稳健估计。并且在一定的正则条件下,证明了所获得的估计量具有渐近正态性。研究所得结果拓宽了贝叶斯推断、分位数估计、光滑阈估计方程变量选择等统计理论方法的适用范围,也丰富了研究纵向数据模型、空间数据模型、函数型数据模型等复杂数据模型的统计方法与应用范围。在项目支持下,本项目组成员已在国内外重要核心刊物上发表期刊论文9篇,专著1本,其中被SCI检索3篇.
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
混采地震数据高效高精度分离处理方法研究进展
复杂纵向数据的统计推断
若干复杂线性模型的统计推断
若干复杂的统计推断问题的理论及其应用
纵向数据动态模型的稳健统计推断