Intensive transcriptome sequencing efforts have led to the discovery that tens of thousands of RNA transcripts are not further translated into proteins. These non-coding RNAs affect nearly every aspect of the biological processes, with the aid of RNA binding proteins particularly recognizing their structural contexts. As a result, it is critical to reveal the binding motifs in RNAs that are recognized by proteins. Unfortunately, current motif finders are based on a free energy model with in vitro thermodynamic parameters. Until recently, high-throughput experimental techniques have emerged for probing the structures of the whole transcriptome, leading to a global in vivo structural picture in model species. We thus proposed to integrate the in vivo RNA structurome data into the study of RNA-protein interaction. To achieve this, we plan to build a statistical model for transforming structural probabilities from the high-throughput structurome data, and then developed a computational framework based on stochastic context-free grammar for systematically exploring the binding motifs of RNA-protein recognition. Finally, we will provide motif scanning for new input RNA sequences, which will facilitate the further studies about the regulatory function and post-transcriptional regulation of non-coding RNAs.
随着新一代测序技术的发展,研究者们发现了成千上万的非编码RNA。它们常通过结构模体(motif)与蛋白结合,从而发挥基因调控功能。研究RNA-蛋白质互作,需要找出有功能意义的蛋白识别模体。但目前的模式发现软件多依赖能量模型预测,对RNA结构的表征不够准确。最近几年来,随着结构组学的突破性进展,人类第一次观测到了真实的体内条件下RNA与蛋白互作状态中的RNA结构信息。本项目拟引入全转录组水平上的RNA结构测定数据,利用体内真实的RNA结构信息辅助RNA-蛋白质互作机制研究。本项目以统计学习理论为基础,构造整合高通量体内结构测定数据的统计模型,并通过上下文无关文法解析蛋白质对RNA的特异性识别motif,最后利用模式查找技术,对新的非编码RNA序列与蛋白质的结合可能性进行预测,为系统深入的研究非编码RNA的功能和转录后调控机制提供基础。
本项目拟引入全转录组水平上的RNA结构测定数据,利用体内真实的RNA结构信息辅助RNA-蛋白质互作机制研究。为此,我们在人类K562细胞系中,收集了匹配的RNA二级结构组学数据(DMS-seq)和RNA-蛋白质互作组学数据(CLIP-seq);以RBP结合位点处及其上下游的序列特征和结构特征为输入,构建了一个整合了卷积神经网络和循环神经网络的深度学习预测模型,RBPnet。通过与前人的三种方法进行比较,我们发现RBPnet有着较高的分类性能,相较于之前的方法,准确度提升三个百分点。基于RBPnet中的motif提取模块,我们对RBPnet识别的序列模式(motif)与数据库中RBP的既往知识做了比较,发现具有较好的吻合度。我们发现,加入RNA结构组学特征信息,对于模型的预测能力有帮助,且不同RBP识别RNA结构特征的能力有差异。最后我们利用RBPnet模型,为562个癌症相关的lncRNA预测RBP结合谱,并基于此结合谱对lncRNA进行功能聚类,发现负责转录抑制和负责转录激活的lncRNA分别被聚类到不同的簇中。我们认为本项目将为未来进一步研究非编码RNA的功能和转录后调控机制提供支持。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
植物光合调控机制新的“RNA-蛋白质互作“模式
RNA-蛋白质结合机制与复合物结构预测研究
基于CLIP-Seq数据解析环状RNA与RNA结合蛋白的互作网络和功能机制
嫁接瓠瓜砧木接穗互作的蛋白质组学研究