Cancer data clustering plays a key role in the diagnosis, treatment and prognosis of cancer. In the face of genetic, epigenetic and other factors that determine the spatial and temporal specific expression of genes, clustering methods that rely solely on single omics data can no longer meet the requirements of cancer diagnosis and prognosis. Clustering methods based on cancer multi-omics data are promising to find more biologically significant cancer subtypes. This project is intended to use multi-view learning as a technical means to integrate data from the genome, epigenome and transcriptome level, and analyzes the consistency, complementarity, local association and global association among cancer multi-omics data. The key research contents include cancer multi-omics data clustering based on multi-view collaborative training and graph structure fusion, cancer multi-omics data clustering based on combined multi-view consistency and complementarity and cancer multi-omics data clustering based on multi-view local-global consistency learning. This project will enrich and further deepen multi-view clustering theory and method,and provide new ideas for cancer multi-omics data clustering in the field of bioinformatics. The identified cancer subtypes will have higher biological significance and have important significance for revealing the mechanism of cancer occurrence and development.
癌症数据聚类在癌症的诊断、治疗和预后评估中起着关键作用。面对遗传、表观遗传等多种因素共同决定基因时空特异性表达的现象时,仅依赖单一组学数据的聚类方法已无法满足癌症诊断、预后等方面的要求。由于面向癌症多组学数据的聚类有希望发现更具生物学意义的癌症亚型,本项目拟以多视图学习为技术手段,从基因组、表观基因组和转录组等层面的数据整合入手,分析各组学数据间的一致性、互补性、局部关联性以及全局关联性,主要研究内容包括:基于多视图协同训练及图结构融合的癌症多组学数据聚类、联合多视图一致性与互补性的癌症多组学数据聚类以及基于多视图局部-全局一致性学习的癌症多组学数据聚类方法。研究成果将丰富与进一步深化多视图聚类理论与方法,为生物信息学领域的癌症多组学数据聚类提供新的思路,同时识别出的癌症亚型具备更高的生物学意义,对揭示癌症发生、发展机制具有重要的意义。
针对癌症基因组学数据的特点以及多组学数据之间的复杂关系,以机器学习为出发点,以多视图学习、图学习、强化学习、子空间学习等理论为基本手段,通过对癌症致病基因预测、癌症聚类和癌症亚型预测等问题的研究与探索,提出了多种癌症基因组学数据分析算法。在癌症多组学数据聚类方面,对癌症亚型预测进行了深入研究,提出了一系列癌症亚型预测方法,主要包括基于多平滑表示融合的多视图谱聚类方法、基于随机游走及相对熵的相似网络融合方法、基于约束拉普拉斯秩多视图图学习方法、基于潜在表示学习的多视图谱聚类方法等,提出的算法在多种癌症组学数据集上获得了良好的癌症亚型预测结果,能够识别出具有生物学意义的癌症亚型,为癌症患者的治疗、预后提供理论指导;在癌症样本聚类方面,为了更加简便、有效地实现肿瘤样本聚类,提出了一种单步鲁棒子空间聚类方法,在多个癌症基因组学数据上的实验结果表明,提出的算法具有良好的聚类性能;在癌症致病基因挖掘方面,重点针对强化学习方法在乳腺癌突变数据中的应用进行了深入的研究,提出了多种强化学习方法,主要包括基于行为克隆的多智能体DQN算法、基于预训练记忆的多智能体DQN算法和基于多样性进化策略的强化学习算法,实验结果表明,提出的多智能体强化学习方法为癌症致病基因预测提供了新的思路,并能够挖掘出与乳腺癌发生、发展过程密切相关的致病基因。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
论大数据环境对情报学发展的影响
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于多组学数据整合与深度学习的癌症驱动基因研究
基于多目标稀疏优化的多视图聚类方法
基于合作式的多视图数据深度子空间聚类的研究
基于多组学数据的癌症驱动模块网络挖掘方法研究