Genomic or epigenomic data of complex tissues reflect the average expression level of the cell population. On this basis, the data analysis problems such as differential, clustering and association analysis are actually carried out at the cell population level, ignoring the differences among different cell types. For microarray data such as gene expression and DNA methylation, many deconvolution models have been proposed to correct the problems of differential gene expression and methylation. However, there is always a lack of effective solutions for sequencing data. This project aims to develop unsupervised signal deconvolution algorithm based on LDA model and supervised algorithm based on clinical phenotypic information from the sequencing data of complex tissues, to infer cell composition proportions and cell type-specific profiles. Further, we propose to develop methods for differential analysis accounting for cell mixing proportions, to detect cell type-specific differentially expressed genes or methylation sites. Finally, this project will apply the above methods to Alzheimer's disease to identify diagnostic/prognostic biomarkers. This project will benefit the research of nervous system diseases and provide new methods for heterogeneous decomposition and heterogeneous data integration of other complex tissues, including cancer.
复杂组织的基因组或表观组数据反映了细胞群的平均表达水平,在此基础上的差异、聚类和关联分析等数据分析问题实际是在细胞群水平上进行的,忽略了不同细胞类型之间的差异。针对基因表达、DNA甲基化等芯片数据,已有研究者提出了多种反卷积模型,对差异基因表达、差异甲基化等问题进行纠正,但对于测序数据始终缺乏有效的解决方案。本项目拟从复杂组织的测序数据出发,分别开发基于LDA模型的无监督信号反卷积算法和借助临床表型信息的有监督算法,得到不同细胞类型的组成比例和细胞类型特异性的表达谱。进一步地,开发校正细胞混合比例因素的差异分析算法,寻找细胞类型特异性的差异基因或甲基化位点。最后,将以上算法应用到阿尔茨海默病上,识别该疾病诊断或预后的生物标志物。本项目的研究将促进神经系统类疾病的研究,并为包括癌症在内的其它复杂组织的异质性分解和异源数据整合提供新方法。
细胞类型异质性对复杂组织基因组、表观组数据的差异、聚类和关联分析等数据分析问题提出了挑战。本项目从复杂组织的基因表达、甲基化数据出发,开发异质性分解算法,得到组织样本中不同细胞类型的组成比例和细胞类型特异性的表达谱。进一步地,开发校正细胞混合比例因素的差异分析算法。最后,将以上算法应用到肿瘤组织上,识别疾病诊断的生物标志物和肿瘤异质性的驱动因子。项目开展期间,我们开发了不依赖参考基矩阵的完全反卷积算法Tsisal和基于部分参考信号的肿瘤异质性分解算法PREDE;针对校正细胞混合比例因素的差异分析问题,我们利用广义最小二乘法提出了考虑肿瘤纯度信息的差异甲基化分析算法InfiniumDM;针对肿瘤组织的疾病预测问题,我们将估计得到的肿瘤组织中各细胞类型所占比例和细胞类型特异性的甲基化位点作为生物标志物,利用机器学习中的SVM算法构建疾病预测模型。本项目的研究对阐明表观遗传变化在疾病发生和发展中的因果作用具有重要意义,并为包括癌症在内的其它复杂组织的异质性分解和异源数据整合提供新方法。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
瞬态波位移场计算方法在相控阵声场模拟中的实验验证
混采地震数据高效高精度分离处理方法研究进展
复杂系统结构分解的分析,稳定性算法和应用
集成多种组学数据构建复杂疾病致病通路的算法设计及应用
广义Nash均衡问题的分解算法研究及应用
Hankel张量分解的理论、算法及应用研究