In the last few years, huge amounts of high-throughput sequencing multi-omics data have been generated to investigate the mechanism underlying occurrence and developpment of cancers. Study of mutation sites in cancer genomes is a hot and difficult problem. Conventional methods are mainly based on primary DNA sequence, and ignore the contribution of DNA three-dimensional structure. In this project, we integrate various types of DNA three-dimensional structures and high-throughput multi-omics data into the study of cancer mutation sites by developing effective computational methods. Firstly, based on hidden variable decomposition model, we will study the reduction of noise in various types of DNA three-dimensional structures data. Secondly, based on ant colony algorithms in network clustering, we will develop new approaches for identifying subtypes of DNA three-dimensional structural mutation in cancers. Finally, by integrating DNA three-dimensional structures and high-throughput multi-omics data, we will identify critical mutation sites in cancers based on Bayes network. We will validate these sites using biological experiments based on mouse model to explore cancer markers. The outcome of this project will be helpful for exploiting the mechanism underlying occurrence of cancers, and provide further theoretical support for the precise diagnosis and treatment.
近年来,高通量测序产生了海量的组学数据,用于研究癌症的发生和发展机理。癌症基因组的突变位点研究是其中一个热点和难点,传统的研究方法主要是基于DNA一维序列,而忽略了DNA三维结构的贡献。本项目研发计算方法整合DNA三维结构和多组学数据到癌症基因组的突变位点研究。首先,基于隐变量分解模型,研究多种DNA三维结构性质数据的去噪方法。然后,基于蚁群算法的网络聚类,提出识别癌症DNA三维结构变异亚型的手段。最后,整合DNA三维结构和多组学数据,基于贝叶斯网络识别癌症发生的关键突变位点,并通过小鼠模型进行生物实验验证,探索癌症的生物靶点。本项目成果将有助于探索癌症的发生机理,为精准诊断和治疗提供理论支持。
癌症目前严重威胁我国国民健康,缩短国民寿命,癌症的诊断和治疗水平仍然有较大进步空间。癌症的发生发展机制比较复杂, 人们对癌症的认识尚不全面, 特别是对癌症关键分子机制还缺乏了解。融合癌症多组学数据可以从多角度对癌症发生发展机制形成更加系统全面的认识,促进癌症的预防和治疗。本项目主要使用多种癌症的多组学数据从两方面研究癌症。第一、癌症端粒长度维持机制研究。设计算法识别端粒长度维持机制的分子特征和关键因子,通过生物敲除实验验证关键因子。另外,基于随机森林方法识别了两种癌症亚型,并通过患者存活率数据验证。第二、癌症长非编码RNA融合识别研究。设计统计学习算法识别了30000多个癌症特异性长非编码RNA融合体,并通过生物实验阐明了融合机制。这项研究使得对癌症基因融合的认识更为全面,丰富了长非编码RNA在癌症发生发展中功能的认识。另外,本项目用到了基因编辑CRISPR系统。该系统的gRNA设计是影响编辑效率的一个关键因素。提出了一种基于gRNA序列预测编辑效率的深度学习算法,该算法在预测准确率及泛化性能上都优于现有的预测算法,且在时间复杂度上具有较大的优势。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
卫生系统韧性研究概况及其展望
湖北某地新生儿神经管畸形的病例对照研究
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
建立整合计算模型鉴别基因组中功能相关的突变位点
基于数据整合的计算癌症基因组学研究
整合高通量基因、代谢子和通路结构信息的癌症风险代谢通路区域系统识别
融合DNA三维结构信息的真核转录调控研究