Massively parallel RNA sequencing provides unprecedented resolution, allowing us to accurately monitor complex biological processes. Investigations of the difference between group levels and the heterogeneity of individual cells are necessary in diagnosing various complex diseases and realizing personalized medicine. Statistically, considering the gene expression pattern of cells within group-based models, and integrating the difference of groups within cell-based models are very important for designing such models. However, the existing models do not satisfy current applications. We will propose zero-inflated Poisson mixed effects models and its inference approaches within Bayesian statistical framework to accurately identify differentially expressed genes, and three important topics will be investigated in this project: firstly, we will introduce a random effect variable to model the individuals; secondly, we will consider the cell-cell correlation in the model, and provide spike-slab prior information for gene effect size; and lastly, we will add the gene-related annotation information to the differential expression model to make the model more interpretable. The effectiveness and efficiency of the proposed methods will be evaluated by simulation studies and real data applications. We hope to build a new framework of identifying differentially expressed genes from multi-individual based single-cell RNA sequencing data, and providing new tools and technical support for the diagnosis and treatment of complex diseases.
转录组测序的蓬勃发展为探索复杂疾病提供了前所未有的机遇,复杂疾病诊断或个性化医疗的实现需要同时兼顾宏观群组水平差异性和微观细胞水平异质性。在群组水平差异分析中透视细胞水平变化,在细胞水平差异分析中整合群组差异是其设计核心。然而,现有差异表达分析模型均不能满足该设计需求。本项目着眼于多个个体的单细胞转录组测序数据差异表达分析问题,拟在贝叶斯框架下,构建零膨胀泊松混合效应模型及其推断方法:1)将个体选取的随机性引入差异分析模型,构建零膨胀泊松混合效应模型;2)将细胞之间的相互作用引入差异表达分析模型,并引入稀疏先验信息表征基因效应;3)将与基因表达间接或直接相关的基因注释信息嵌入模型,以提高差异表达基因识别的准确性和模型参数的生物解释性。设计仿真模拟数据评估其科学性和优劣性,实例分析验证其实用性,以期构建切实、有效的差异表达基因识别模型与算法,为复杂疾病诊治提供新方法和技术支持。
单细胞转录组测序技术的蓬勃发展为探索复杂疾病提供了前所未有的机遇,复杂疾病诊断或个性化医疗的实现需要同时兼顾宏观群组水平差异性和微观细胞水平异质性。在群组水平差异分析中透视细胞水平变化,在细胞水平差异分析中整合群组差异是其设计核心。然而,现有差异表达分析模型均不能满足该设计需求。基于此,本项目完成工作内容如下: 1)针对多个个体的单细胞转录组数据差异表达分析问题,提出了细胞转录组差异基因分析与富集分析整合方法iDEA,其富集分析通路识别功效比现有基因集富集分析方法提升5倍,比现有差异表达分析方法提升了64%;2)针对空间转录组数据的差异表达分析问题,提出了空间转录组空间表达模式识别方法SPARK,其效能比现有方法高约10倍;3)针对单细胞转录组数据降维方法问题,收集了32个单细胞转录数据集,对 18种不同的数据降维方法进行了比较分析,为单细胞转录组测序数据分析中数据降维方法的选择提供了重要指导获参考;4)针对单细胞转录组数据与全基因组关联性整合分析研究问题,总结了单细胞测序研究与全基因组关联性研究的最新进展,阐述了在细胞分辨率对全基因组关联性分析结果的解释的重要性;5)针对临床试验治疗效果评价亚群分析问题,提出了用于分析个体治疗水平的亚群分析模型HOSA,为临床试验评估提供了新方法和新思路;6)针对临床实际应用中大骨节病发病机制未明的问题,对大骨节病表观遗传与转录组学整合分析进行了研究,发现多个大骨节病差异甲基化区域及其调控的关键基因。..在研究成果方面,在Nature Methods, Nature Communications, Genome Biology等国际顶级和重要期刊发表论文10篇,申请相关专利1项,全部完成了预期目标。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
基于单细胞转录组数据的细胞分类方法研究
鳙大、小个体比较转录组及差异表达基因与体重的关联性研究
集成单细胞转录组数据的选择性多聚腺苷化网络建模研究
基于单细胞转录组数据揭示细胞命运决定的综合机制