In the post-genomic era, biomedical research has gradually developed from the study of conformation and function on individual genes and proteins to the study of cluster interactions, pathways and even higher-level systems biology study on multi-omics data. High-dimensional interactomics data also show explosive growth. The traditional clustering analysis method lacks an effective response to the complex internal structure and huge scale of high-dimensional interactomics data, and the clustering results are not ideal. In this project, we use high-dimensional interactomics data of cancer patients (renal clear cell carcinoma) as simulation research data set (training set) and empirical research data set (validation set) from TCGA and GEO, respectively. A prior constrained tensor decomposition model will be constructed based on variational Bayesian inference to restore the low-dimensional subspace structure of high-dimensional interactomics data. In addition, we will explore the subspace double clustering algorithm based on cuckoo search strategy. Finally, on the basis of the clustering quality evaluation and empirical research on renal clear cell carcinoma, a subspace double clustering method of tumor high-dimensional interactomics data will be constructed based on Bayesian tensor factorization theory. This project will provide important scientific basis and technical means for identifying new tumor biomarkers and subtypes simultaneously, and will also play an important theoretical and practical role in promoting the development of tumor individualization and precision medicine.
后基因组时代的生物医学研究已经从单个基因、蛋白质的构象、功能研究逐渐发展到了对多组学的集群相互作用、通路乃至较为高层的系统生物学研究,高维关系组学数据也随之呈现爆炸性增长。传统的聚类分析方法对高维关系组学数据内部结构的复杂性和规模的庞大性缺乏有效的应对,聚类效果不甚理想。本项目以TCGA和GEO数据库中肿瘤患者(肾透明细胞癌)高维关系组学数据分别为模拟研究数据集(训练集)和实证研究数据集(验证集),探索基于变分贝叶斯推断的先验约束张量分解建模方法,以恢复高维数据的低维子空间结构;其次,探索布谷鸟搜索算法下的子空间双聚类建模方法;最后,在肾透明细胞癌数据聚类质量评价及实证研究基础上,构建基于贝叶斯张量分解的肿瘤高维关系组学数据子空间双聚类建模策略。本项目将为同时识别新的肿瘤生物标记物及肿瘤亚型提供重要科学依据和技术手段,并对促进肿瘤个体化医疗和精准治疗的发展有重要理论价值和实践指导作用。
随着生物实验技术的迅猛发展,国内外诸多研究项目已收集了海量的高维组学数据,并采集了常见复杂疾病和其相关的表型信息。然而,由于其基因组学数据存在的高维和高噪声的特点,以及遗传因子对疾病的非线性预测作用给风险预测建模带来了巨大的挑战。大量学者的研究成果已表明高维基因组学数据间的交互作用影响复杂疾病的发生,且遗传效应的非线性也广泛存在。因此,仅考虑线性关系的模型并不适用于复杂疾病的遗传风险预测,也无法使预测效果达到最优。.本项目构建了基于贝叶斯张量分解的子空间双聚类建模方法,证实了贝叶斯张量分解在高维组学数据特征提取中的可靠性、有效性和鲁棒性;构建了基于贝叶斯张量分解的子空间双聚类统计模型,为同时识别新的复杂疾病生物标记物及遗传风险预测提供理论与方法的技术支撑。本项目对高维组学数据的聚类方法学问题,特别是在保护复杂生物网络结构的前提下,解决了高维组学数据存在的高维、噪声、异构等难题。此外,利用变量重要性评分的思想,探索基于深度学习模型的数据降维和变量筛选方法,使得建立的变量筛选方法。其次,利用迁移学习的思想,将变量筛选和遗传风险预测模型的构建有机融合的全新深度迁移学习模型。.本项目以UKB和ADNI的相关数据为基础,从整体水平揭示复杂疾病的内在发展规律,对系统性靶标确证和药物治疗,以及从源头上克服单靶标药物的不足,奠定了重要的应用基础,对促进复杂疾病个体化医疗和精准治疗的发展具有重要的现实指导意义和应用价值。本项目不但解决了遗传风险预测领域中的重大难题,而且还可以对发展人工智能技术特别是以深度学习、迁移学习为代表的新方法产生明显的促进作用。这不仅具有重要的学术理论意义,而且为生物大数据统计分析方法体系的构建打下重要的理论与实际基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
涡度相关技术及其在陆地生态系统通量研究中的应用
论大数据环境对情报学发展的影响
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
基于部分K空间数据子空间分解的贝叶斯非参数压缩感知MRI重建方法
基于贝叶斯方法的高维数据的亚组分析
复杂多视图高维数据子空间聚类方法研究
高维数据的非参数经验贝叶斯方法