DNA methylation plays essential regulatory roles in multiple cellular processes including genomic imprinting, stem cell differentiation and diseases. The quantification of differential methylation patterns across multiple samples will help to understand the role of DNA methylation in regulation of tissue specific gene expression, and may provide valuable references for potential drug targets. Currently, the whole genome DNA methylation data across different human tissues at the single-CpG resolution is largely lacking, and the available computational prediction methods as well as the differential methylation analytical algorithms still leave much to be desired. Based on that, we propose to carry out some specific research: 1) Predict the whole genome DNA methylation levels of multiple human samples at the single-CpG resolution with deep learning method, by combining the Illumina 450K DNA Methylation Beadchip data with some other traditionally used DNA sequence features; 2) Establish a super-CpG based DNA sequence segmentation model based on the methylation pattern similarity and location correlation, using fast watershed algorithm; 3) Identify differentially methylated region sets with improved shannon entropy approach, and perform functional analysis of typical differential methylated region sets with clustering method; 4) Study the specific differential super-CpG sets in Rheumatoid Arthritis, and discover some novel biomarkers by experimental validations.
DNA甲基化对基因组印记、干细胞分化以及疾病等生物进程具有重要的调控作用,定量分析多样本间的差异甲基化模式有助于理解组织差异性的机理以及为开发潜在的药物靶标提供依据。针对目前人类全基因组单碱基分辨率的DNA甲基化数据匮乏、能应用于多组织甲基化预测的计算方法以及相应的后续差异分析方法有待完善的现状,本项目拟研究:1)在传统的DNA序列相关特征基础上,结合450K甲基化芯片数据这一重要特征,引入深度学习的预测算法实现对不同样本的全基因组单碱基分辨率的DNA甲基化水平的预测;2)基于DNA甲基化水平的相似性以及序列位置的邻近关系,采用快速分水岭算法建立基于超CpG模型的序列分割算法;3)基于改进的Shannon熵算法识别差异甲基化区域组,融合聚类算法对典型差异甲基化组进行深入的功能分析;4)挖掘类风湿性关节炎中特异的超CpG甲基化区域组,通过实验验证与筛选发现新的Biomarker。
DNA甲基化对癌症、类风湿性关节炎等疾病的发生与发展具有重要的调控作用,定量分析多样本间的差异甲基化模式有助于理解组织差异性的机理以及为开发潜在的药物靶标提供依据。针对目前人类全基因组单碱基分辨率的DNA甲基化数据匮乏、能应用于多组织甲基化预测的计算方法以及相应的后续差异分析方法有待完善的现状,本项目开展了以下研究:1)在传统的DNA序列相关特征基础上,创新性的融合450K甲基化芯片数据这一重要特征,开发了DNA甲基化的预测模型;2)引入深度学习算法,在不需要经验获取相关核心特征的情况下,开发了DNA甲基化的预测模型,获得了较高的预测精度以及与DNA甲基化水平密切关联的motif特征;3)为充分利用现有的数以万计的450K甲基化芯片数据,开发了基于甲基化局部相似性的芯片数据扩展方法,将其覆盖率从2%提高到30%,为更加全面的认识DNA甲基化概况提供了可能;4)采用集合特征提取方法,对TCGA数据库中十余种癌症的DNA甲基化数据进行了分析,挖掘出若干癌症特异的且具有较高稳固性的甲基化标志物以及泛癌生物标志物,为癌症的诊断和精准医疗提供了新的思路;5)挖掘类风湿性关节炎与骨关节炎、正常人之间的异常甲基化模式,得到类风湿性关节炎特异的异常甲基化模式及信号通路,为类风湿性关节炎的精准医疗提供了新的思路;6)对比类风湿性关节炎不同关节的甲基化模式与基因表达模式,发现患者的不同关节具有特异的甲基化模式,一定程度上解释了不同的患者在治疗过程中会有不同药物效果的现象。本项目的研究为从事DNA甲基化研究的相关人员提供了DNA甲基化的在线预测工具,也为癌症、类风湿性关节炎生物标志物的发现提供了依据。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
农超对接模式中利益分配问题研究
基于LASSO-SVMR模型城市生活需水量的预测
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于超体素深度特征学习的室内点云场景分割与理解
基于深度学习与声影校正的全乳房超声解剖层分割新方法研究
基于深度学习的协同目标分割与行为理解研究
基于多任务深度学习的图像语义分割方法研究