High dimensional longitudinal data is characterized by high dimensionality, complex within-subject correlation, and difficulty in assuming full likelihood, these brings challenging issues for statistical inference. Estimating equations and empirical likelihood are often used for such data analysis, because they do not need stringent distributional assumptions and can incorporate data information flexibly, and when the data is high dimensional, variable selection is necessary. What is more, how to use the within-subject correlation is an important issue in longitudinal data analysis, robustness and efficiency are basic requirements of statistical inference..Composite quantile regression (CQR) has merits in both robustness and estimation efficiency, copula functions can characterize the correlation in the data flexibly. Thus, based on copula and CQR, we will investigate statistical inference for the high dimensional longitudinal data. First, we will use the copula to characterize the within-subject correlation of CQR with longitudinal data and establish copula based high dimensional longitudinal data CQR estimating equations. Second, combine empirical likelihood and estimating equations, we will further construct copula based high dimensional longitudinal data CQR empirical likelihood. Third, establish copula and CQR based variable selection methods for the high dimensional longitudinal data.
高维纵向数据具有维数高、组内相关性复杂及难以假定全似然等特点,给统计推断带来了挑战。由于不需要严格的分布假定且能灵活地利用数据信息,估计方程和经验似然经常被用来分析这类数据,而当数据为高维时,变量选择就很有必要。另外,如何利用组内相关是纵向数据分析的重要问题,稳健性和有效性是统计推断的基本要求。.复合分位数回归(composite quantile regression)具有稳健性和估计效的优势,copula函数能够灵活地刻画相关性。因此,本项目将基于copula与复合分位数回归,研究高维纵向数据的统计推断。首先,探究利用copula刻画纵向数据复合分位数回归的组内相关性,建立基于copula的高维纵向数据复合分位数回归估计方程;其次,将经验似然与估计方程结合,构建基于copula的高维纵向数据复合分位数回归经验似然;最后,研究基于copula和复合分位数回归的高维纵向数据变量选择。
本项目主要致力于纵向数据和大规模数据的统计方法和理论研究。在研期间取得了一系列的研究成果,这些成果的主要内容有:(1)对纵向数据复合分位数回归模型提出了基于copula函数的组内相关性建模方法,构建了有效的复合分位数回归估计方程和光滑门限高维变量选择方法,建立了估计量的相合性、渐近正态性以及变量选择的Oracle性质等理论结果;(2)针对纵向数据下部分线性模型、单指标模型、部分线性变系数模型等半参数模型,提出了基于复合分位数回归的估计方法、经验似然推断方法以及高维变量选择方法,在方法的构建过程中结合了copula函数刻画了组内相关性,建立了大样本统计理论结果,而且将方法推广到了半参数众数回归的框架下;(3)基于分位数回归、复合分位数回归以及众数回归等,建立流式大数据以及分布式大数据的统计推断方法,建立了流数据实时更新估计量以及大数据分布式估计量的统计理论结果;(4)针对非随机存储的大规模数据,提出了适应性的分布式统计推断方法,建立了相关的统计理论结果,并且将该方法推广应用到了稳健众数回归以及神经网络等模型中。(5)通过模拟研究和实际数据研究验证和分析提出的理论和方法的可行性。 本项目的研究成果将为纵向数据以及大规模数据的分析提供科学的统计方法和理论保证,从而为生物学、医学、流行病学、环境科学、计量经济学以及金融等领域的数据分析提供可行的理论和方法。本课题在国内外重要学术期刊上发表和录用学术论文15篇,其中SCI收录13篇,而且研究成果也引起了国内外同行的较广泛关注和引用,有两篇论文入选ESI高被引论文,一篇入选ESI热点论文。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
基于分位数回归的高维数据降维及变量选择研究
不完全数据下分位数回归模型的经验似然推断
缺失响应数据下高维稀疏分位数回归模型的变量选择
基于纵向数据的秩回归和分位数回归的有效参数估计