The discovery of cotranscriptional RNA splicing changed the canonic view of transcription process, in which the processes of transcription and RNA splicing are independent. Detailed assays suggested that multiple regulatory elements, including DNA sequence, transcription factors, splicing factors, phosphorylation states of the repetitive C-terminal domain (CTD) of RNA polymerase II and histone modifications, are involved in the regulation of coupling between transcription and splicing. However, the picture of relationships between the coupling and the regulatory elements at systems level is only beginning to emerge. Currently, the next-generation sequencing (NGS) based technologies are generating an huge amount of heterogeneous "-omics" data, which not only offered technical supports to addressing this question, but also raised challenges in computational biology on how to integrate and interpret such heterogeneous "-omics" data sets. In this proposal, we aimed to develop a novel computational biology method to integrate the heterogeneous NGS data sets. To reveal the plausible associations between key regulatory elements in promoter region and the coupling process, a novel machine learning technology has also be aimed. Based on these technologies, a predictive computational model will be built to predict alternative splicing patterns in human cells from the information in the coupled promoter region. We will test the model's predictions in human and mouse cells. By comparing the models trained in different cell types and species, we expect to reach a new global picture about the associations between regulatory elements and the coupling process of gene transcription and RNA splicing, and therefore improve our understanding of gene transcription regulation.
近年来研究发现,基因转录和剪接并非如传统所认为的那样相互独立,而是紧密协同的。研究表明包括DNA序列、转录因子、剪接因子、RNA转录酶II的CTD修饰以及组蛋白修饰在内的多种调控元件都参与了基因转录和剪接的协同。然而在系统层面这些调控元件和这一协同过程之间的关系却尚未清晰。目前基于第二代DNA测序平台的新技术群为解决这一问题提供了技术基础。但新技术在产生海量多类组学数据的同时也为计算生物学提出了新的挑战。为此,首先我们将开发整合多类组学数据的新方法;然后利用机器学习的技术,从海量的组学数据中挖掘在启动子区上关键调控因子和这一协同过程之间的联系。基于此建立的计算机模型将利用协同的启动子区信息预测人类细胞中可变剪接的模式。我们将在多种人和小鼠细胞中验证模型的预测。通过对不同细胞和物种中模型的比较分析,我们将加深对这一协同过程的进化和组织特异性的认识,从而加深对基因调控本身的理解。
基因转录和剪接是紧密协同的分子生物学过程。包括DNA 序列、转录因子、剪接因子及组蛋白修饰在内的多种调控元件都参与了基因转录和剪接的协同。然而在系统层面这些调控元件和这一协同过程之间的关系却尚未清晰。本课题以开发整合多类组学数据的新方法和利用机器学习的技术,从海量的组学数据中挖掘关键调控因子和这一协同过程之间的联系为主要研究内容。已有的研究发现,基因的剪接过程受到远程调控元件(例如增强子)的调控。这种调控作用可以通过多种机制实现,而其中一个重要的机制是远程调控元件通过染色质纤维的空间折叠作用直接物理作用于转录和/或者剪接机器来实现。因此,我们收集了用于鉴定染色质空间结构金标准实验数据(染色质构象捕获,3C),并为之构建了标准数据库3CDB。在此基础上上,我们开发了新的方法用于鉴定染色质构象关键介导因子CTCF在不同调控状态下的DNA结合模体(motif)。我们的方法显示,在模体特定位点上的DNA甲基化水平可以直接决定CTCF是否作为增强子功能的结合状态。进一步,考虑到目前基于3C技术的高通量方法在解析染色质相互作用中的低分辨率,我们开发了整合核小体排布信息和Hi-C数据的新方法去预测高精度的染色质相互作用。在这个方法的帮助下,我们分析了在转录组中的一类特殊剪接现象,即反式剪接。我们发现,反式剪接事件倾向于在两个基因组上相距甚远,但在核内三维物理空间很近的位点之间产生。这一发现暗示,反式剪接过程可能在共转录过程中是由于空间临近效应促使的,即所谓空间临近模型。我们通过整合ENCODE数据以及在多种人和小鼠细胞中验证了这一模型。我们的研究表明,转录和剪接的协同作用的确会在其发生的基因组环境中产生相应的表观遗传学足迹。通过分析这些表观遗传学足迹可以加深对这一协同过程的认知,进而加深对基因调控机制本身的理解。我们的研究结果为进一步研究基因表达在基因组三维空间中的调控机制提供了新的视角。
{{i.achievement_title}}
数据更新时间:2023-05-31
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
转录组与代谢联合解析红花槭叶片中青素苷变化机制
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
湖北某地新生儿神经管畸形的病例对照研究
多空间交互协同过滤推荐
基于大规模转录组学数据的癌症可变剪接调控模式和机制研究
整合先验信息与组学数据重构转录和转录后调控网络的生物信息学方法研究
基于生物学调控网络的肺癌多平台组学数据的整合分析方法研究
基于数据整合的计算癌症基因组学研究