The big data research on microbiome data has played an important role in ecological environment, human health and disease research. The project mainly uses three practical problems in the analysis of microbiome data to drive us to develop the auxiliary information (predictor graph and covariate information) assisted variable selection in high-dimensional model. Firstly, using parameter estimation, obtained from the proposed high-dimensional sparse Gaussian copula regression model incorporating predictor graph information, to select useful bacterial species; Secondly, utilizing parameter estimation, obtained from the proposed high-dimensional sparse vary coefficient model incorporating predictor graph information, to identify the nonlinear interaction effects between the bacterial species and the other covariates. Thirdly, based on the framework of covariate information assisted high-dimensional regression model with the latent variables, using variable selection results on model parameters owning conditional sparsity structure by the proposed multiple testing procedure to find potential confounders adjusted bacterial species. The first two questions propose the novel models and consider high-dimensional and sparsity statistical inference, and the third one considers high dimensional and non-sparsity (high-dimensional conditional sparsity) variable selection case. All the methods can be applied to data sets in other fields. In addition, the project will study the theoretical property of the new methods.
微生物组大数据研究在生态环境、人类健康和疾病研究方面都起到了重要作用。本项目主要以微生物组数据研究中三个实际问题来驱动研究相应的辅助信息(预测变量图、协变量信息)协助的高维模型变量选择。第一,提出含有预测变量图的高维稀疏高斯Copula回归模型并用其参数估计来选择有用细菌种类;第二,提出含有预测变量图的高维稀疏变系数模型并用其参数估计来识别细菌种类与其它协变量的非线性交互效应;第三,基于协变量信息辅助的含有潜在变量高维回归模型框架,提出一个多重检验过程对模型中条件稀疏结构参数进行变量选择来找出潜在混杂因素矫正后的有用细菌种类。前两个问题提出的模型都是新颖的而且都是考虑高维稀疏变量选择,第三个问题考虑高维非稀疏(条件稀疏)变量选择情形。所有新方法都具有一般性,可以应用于很多其它领域数据。另外,本项目还将研究新方法的理论性质。
微生物组大数据研究在生态环境、人类健康和疾病研究方面都起到了重要作用。本项目主要以微生物组数据研究中实际问题来驱动研究相应的高维模型变量选择以及辅助信息(进化树信息、预测变量图、协变量信息) 协助的高维模型变量选择。分析过程主要涉及两个问题:第一,首先需要提出新颖的适合微生物组数据的高维模型或者先验信息(进化树信息、预测变量图、协变量信息)辅助的高维模型;第二,基于构造的高维模型该如何进行细菌种群的自变量选择。本项目正是基于这两个问题做了一些研究工作。首先申请人在项目前期,已发表一篇本基金项目支持的高水平期刊SCI论文(2021年影响因子5.640,JCR一区)。该工作提出了一个新颖的利用进化树信息协助的稀疏惩罚回归方法来进行微生物中大规模细菌种群变量的选择,提出的方法相比较现有方法在某些情形下具有较好的预测性能,另外在实际数据分析中也有新的发现。在该项目中后期,申请者围绕本项目研究的问题,分别做出了以下几个工作:1、提出允许非线性关联关系的高维组合数据模型,并提出稳健的大规模多重检验框架下的False discovery rate(FDR)控制方法对其进行变量选择;2、提出微生物组数据网络信息辅助的高维组合数据模型,并提出稳健的FDR控制方法对其进行变量选择;3、提出基于高维组合数据模型的环境变量协助的FDR控制的变量选择方法。目前这些工作都在投稿中,另外还有一些包括利用混杂协变量信息矫正的高维模型并提出FDR控制方法对其预测变量进行变量选择等工作也在攥写中。总之,申请人的工作内容都紧扣项目的研究问题,先利用额外的结构信息或其它协变量信息来提出新颖的高维模型,再针对模型进行基于惩罚或者FDR控制的自变量选择。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
粗颗粒土的静止土压力系数非线性分析与计算方法
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于概率生成模型的高维数据变量选择
基于高维纵向数据边际模型的变量选择及理论研究
高维稀疏统计模型中的变量选择与检验
稳健变量选择与高维数据分析