In the last few years, increasing amounts of high-throughput multi-omics data have been collected to investigate the genetic mechanism underlying complex disease at different levels. Meanwhile, medical imaging techniques have also become a critical component in diagnosis and treatment planning by providing an effective means for increasing knowledge of normal and diseased anatomy for medical research. In this project, we will focus on developing effective computational methodology for integrating such imaging and multi-omics data. Firstly, based on generative network model, we will study the discovery of complexes in biological networks; secondly, based on novel machine learning techniques such as multitask learning and structured sparsity, we will develop new approaches for modeling the relationship between different omics data and imaging data. Finally, by incorporating 3D genome organization data, we will build a software platform of the integration approaches, analyze the multi-omics and imaging data of cancer, to explore cancer markers and provide further theoretical support for the precise diagnosis and treatment. The outcome of this project will be helpful for exploiting the complementary nature of existing biological and medical big data and enhance the systematic and comprehensive analysis of a patient.
在过去数年中,越来越多的组学数据已经被收集起来,用于研究复杂疾病在不同层面上的遗传机制。同时,通过为医学研究提供关于正常及疾病人体解剖构造的新知识,医学图像数据也成为医学诊断和治疗规划中的有效工具。在本项目中,我们将聚焦于研发多组学和图像等生物医学大数据的整合计算方法。首先,基于生成网络模型,我们将研究生物网络的模块挖掘方法。然后,基于多任务学习、结构化稀疏等新颖机器学习技术,我们将提出建模不同组学和图像数据的新手段。最终,通过集成染色体三维数据,我们将建构整合计算软件平台,分析肿瘤相关的多组学和图像数据,探索肿瘤的生物靶点,为精确诊断和治疗提供理论支持。本项目成果将有助于利用已有生物医学大数据的互补特性,改善对病人的全面系统分析。
在过去数年中,越来越多的组学数据已经被收集起来,用于研究复杂疾病在不同层面上的遗传机制。同时,通过为医学研究提供关于正常及疾病人体解剖构造的新知识,医学图像数据也成为医学诊断和治疗规划中的有效工具。在本项目中,我们聚焦于研发多组学和图像等生物医学大数据的整合计算方法,研究内容围绕四个方面展开:(1)构建异构生物医学大数据整合方法;(2)开发基于生物医学大数据整合方法的软件平台;(3)基于生物医学大数据整合方法挖掘肿瘤的相关标识物;(4)基于生物信息学方法研究遗传调控及进化机制。.项目取得主要研究成果包括,(1)提出了多个异构生物数据整合计算方法:基于协同矩阵分解推断异构生物网络中miRNA与疾病相关的相互作用关系;通过网络分析方法、多变量稀疏回归模型和深度学习等技术,融合多组学数据,推断关键的基因调控因子;(2)开发了相关生物数据分析软件平台,包括gRNA设计平台pgRNAFinder、基因融合交互分析数据库FPIA和肿瘤转录组多模态信息整合分析平台PipeOne;(3)通过生物大数据整合方法发现多个肿瘤相关的标识物:通过TCGA的多维数据对TERT高低表达癌症进行了系统分析,描述了肿瘤相关的端粒酶的分子景观;对癌症中lncRNA参与的基因融合进行分析,发现两个蛋白质编码基因KDM4B和EPS15L1对癌症病人的预后存在显著影响,生物实验表明,这两个基因与lncRNA发生融合后,均能促进乳腺癌细胞的增殖;(4)在弱监督学习框架内,利用卷积神经网络、循环神经网络等技术,提出一系列DNA结合位点预测方法。. 项目组累计发表SCI论文36篇;培养了博士研究生13名,以及数十位硕士研究生。. 本项目的研究成果为异构生物数据大数据整合计算提供了一系列的新方法,为全面、综合分析多组学数据提供了强有力的工具;开发了相关的数据分析软件平台,为生物学家进行深入研究提供了便利;相关成果为癌症治疗、生物机理的解释提供依据。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
跨社交网络用户对齐技术综述
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
内点最大化与冗余点控制的小型无人机遥感图像配准
基于核学习的大型复杂数据挖掘理论与方法研究
动态数据挖掘的构造性机器学习方法研究
面向大数据的机器学习理论与方法
基于核机器学习的民航飞行数据挖掘关键技术研究