In recent years, scientists found that TET1 could catalyze mC to hmC. The groundbreaking discovery opened a door for understanding the mechanism of DNA demethylation and made hmC analysis a hotspot. The applicant has been collaborated with the top scientist in hmC research field since 2010. According to our previous results, we found although lots of hmC high throughput sequencing data sets in mouse embryonic stem cell (mES) were generated, bias existed among the same cell line and the same experiment, which prevented us from understanding the real hmC world; furthermore, there has no systematic study for hmC and other regulatory "omics"data yet. Therefore, we hope for developing "integrated probabilistic modeling" based algorithms to eliminate the systematic bias from hmC experiments, on behalf of which can we get the more reliable hmC data; and applying Jaccard Index algorithm to systematically uncover the regulatory mechanisms of hmC involved DNA demethylation procedure. We hope this project will promote the study of DNA demethylation mechanism and eventually be applied to the disease (such as cancer, neurodegenerative diseases, etc.) treatment.
近年科学家提出TET1蛋白可将甲基化胞嘧啶(mC)催化形成羟甲基化胞嘧啶(hmC),这一发现掀起了研究DNA去甲基化机制的热潮。申请人自2010年起一直与此领域顶尖专家合作研究小鼠胚胎干细胞中hmC相关机制。我们的前期工作发现,虽然很多研究团队产生了高通量hmC数据,但即使同一细胞系、同一实验技术产生的hmC数据间仍有较大误差,这必然会阻碍我们对hmC的真正认识;另外目前尚未有工作系统研究hmC与转录调控相关组学数据的关联性。因此,申请人拟基于整合概率模型,发展算法,以降低mES中由于hmC高通量实验所带来的误差,得到相对可靠的hmC信号;并应用Jaccard Index算法,系统而全面地研究mES中hmC与其他转录调控数据之间的相关性,进而揭示hmC所参与的DNA去甲基化过程中相关调控机制。希望本课题能够推动DNA去甲基化机制的研究进程,最终应用于疾病(如癌症、神经褪行性疾病等)的治疗。
在申请资助时,DNA羟甲基化的主要研究手段是各种富集后再测序的技术,但即使同一细胞系、同一种富集手段所产生的hmC数据间依然有较大误差。因此我们在当时把研究重点放在基于整合概率模型,发展算法,以降低hmC高通量实验所带来的误差,得到相对可靠地hmC信号,并在此基础上研究hmC所参与的去甲基化机制。但在项目执行过程中我们发现,随着实验技术的不断发展和测序成本的下降,越来越多研究hmC的科学家选择使用DNA修饰后进行测序的方法(如:TAB-seq)得到单碱基分辨率的hmC数据。与基于富集方案得到的hmC数据相比,这类目前主流技术所得到的单碱基分辨率hmC数据已经具备了准确性强可重复性高的特点,因此我们无需再把项目重点放在研究不同hmC技术所产生数据的特征及其降噪算法上。经过仔细论证,我们把主要精力转向“利用混合概率模型发现差异性DNA羟甲基化”这个与生物学功能更紧密相关的计算问题上来。我们选择了癌症组织和细胞系的BS-seq数据(mC)进行算法构建和验证,是基于如下考虑:一方面单碱基分辨率的hmC和mC数据格式基本相同,且mC数据资源更加丰富易于验证;另一方面,我们认为造成大部分DNA(羟)甲基化水平呈连续分布而非0、1的最主要原因是样品异质性,那么寻找差异性甲基化区域最终就转化成为解析样品异质性问题,因此我们决定使用异质性公认较高的癌症细胞系和组织作为研究对象。我们基于混合概率模型构建了MethylPurify算法,并取得了非常好的效果。首先,我们的算法只需要用在癌症组织上,即可发现几乎所有癌症和癌旁组织相比较才能得到的差异性甲基化区域,这就大大减少了研究的取样工作和测序量;更重要的是,我们的算法发现了一些新的癌症和正常组织的差异性DNA甲基化区域,并通过大规模TCGA公共数据得到进一步证实,这些区域由于样品异质性的干扰无法被相同样品的case-control研究检出。此工作已在2014年发表于Genome Biology(IF:10.5),并获得了许多同行的肯定。
{{i.achievement_title}}
数据更新时间:2023-05-31
An improved extraction method reveals varied DNA content in different parts of the shells of Pacific oysters
DNA storage: research landscape and future prospects
基于EMD与小波阈值的爆破震动信号去噪方法
The effectiveness and safety of traditional Chinese herbal medicine for the treatment of male infertility associated with sperm DNA fragmentation
后掠叶片锯齿尾缘宽频噪声实验研究
microRNA 在Snail/Twist诱导乳腺癌细胞发生上皮-间质转化中的表达调控及生物学功能
DNA羟甲基化修饰对小鼠胚胎干细胞染色质结构与基因转录的影响
羟甲基化胞嘧啶参与从头甲基化/去甲基化
14-3-3tau及其DNA甲基化/羟甲基化调控在子痫前期发病机制中的作用
白血病相关基因DNA甲基化模式分析及去甲基化研究