Different from proteins whose biological functions are mainly enabled by their tertiary structures, RNA molecules rely much more on their secondary structures due to the stableness and specificity of canonical base pairing. Thus it is essential to determine RNA secondary structures for understanding the regulation mechanism of long noncoding RNAs (lncRNAs) and untranslated region of mRNAs. Recently, chemical probing methods based on high-throughput sequencing have been developed to profile RNA secondary structure at transcriptome level both in vivo and in vitro. However, coverages of genome data are deficient, especially for low-abundance transcripts. Therefore, we plan to develop a machine learning based algorithm to predict every base’s pairing probability utilizing high-throughput chemical probing data (icSHAPE, PARIS, etc). We will then combine it with nearest neighbor energy model to determine the complete secondary structure. Our method would be able to predict in vivo secondary structure of lncRNA with low-abundance. We will also be able to predict pseudo-knots and long-range RNA-RNA interactions, which may explain the mechanisms of RNA-mediated regulation of cellular processes. Moreover, the predicted secondary structure will facilitate more accurate prediction of tertiary structure. Finally, we will apply our method to the prediction of the structures for important lncRNAs, and validate the outcomes with experiments.
和蛋白质不同,因为稳定而特异的碱基互补配对关系,RNA的二级结构对其生物学功能更重要,也更能准确地被预测到。测定RNA二级结构对于理解长非编码RNA和mRNA的非编码区域的调控机制有着重要的作用。近几年来,基于高通量测序而发展出的RNA二级结构测定方法可以获得更符合细胞真实状态的RNA结构,但是存在数据覆盖度低、尤其很难测定低表达量的非编码RNA的缺陷。因此,本项目将利用icSHAPE和PARIS等最新实验方法测定的结构数据,通过机器学习方法,结合能量模型,开发更准确的预测RNA体内的二级结构的新方法和新算法。该方法将可以更好地鉴定已有计算方法很难预测的含有pseudoknot的RNA结构以及RNA的远程相互作用,从而揭示RNA结构介导的基因调控的分子机制。同时,这些二级结构也将有助于提高RNA三级结构预测的准确度。最后,我们还将应用在重要的lncRNA上,通过实验验证我们的模型。
非编码RNA及其二级结构在多种重要生物学过程中起调控作用,如何能高效、可靠、系统地鉴定非编码RNA、预测其二级结构及其潜在的作用靶标是研究非编码RNA的重要基础。在该项目的支持下,我们针对以上科学问题在Nucleic Acids Research等期刊上以最后通讯作者的身份发表了6篇文章,以及共同通讯文章1篇,以上都标注了本项目的资助;此外,提交了2项专利申请,并全部得到了授权。研究成果包括了一套系统的生物信息学工具和平台,很好地解决了上述问题;并且,这套工具还被进一步应用在了癌症检测和植物逆境响应相关的新非编码RNA的发现和研究上。代表性成果3个。1)首先,我们开发了一个数据库POSTAR及其配套的计算工具,包括了人、老鼠、拟南芥等多个物种,涵盖了RNA二级结构、翻译效率等多个分析模块,更新了3个版本(Nucleic Acids Research 2017; 2019;2022),被访问超过8万次,获得软件著作权1个。2)接着,我们通过高分辨率RNA结构测序实验(Shape-map和icSHAPE)测定拟南芥的RNA二级结构,定量了外界环境变化刺激下拟南芥RNA二级结构的变化及其对相应RNA翻译效率影响,找到了多个RNA二级结构和翻译效率变化同时变化的基因,其中关于翻译效率的计算方法RiboWave发表在了Nucleic Acids Research 杂志上。RiboWave利用小波变化方程提取Ribo-seq中的3nt周期性信号,可以更为精准地计算RNA翻译潜能,从而准确的还原真实的翻译活动并构建完整的细胞翻译谱图,帮助科研工作人员加深对细胞内翻译调控的认知和理解 。不仅如此,RiboWave还被应用于研究细胞内动态的翻译调控行为,即降噪后的3-nt翻译信号可以参与细胞内蛋白质水平的定量、差异翻译行为的研究以及核糖体移码现象的鉴定等。3)最后,我们还发现了多种非编码RNA结构域或可作为稳定的肝癌无创诊断标志物,该成果发表在Clinical Chemistry杂志。我们发现的cfRNA结构域片段在血浆和外泌体中稳定存在,在区分HCC、慢性乙型肝炎患者和健康人群时具有良好的敏感性和特异性,有良好的临床应用前景。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
玉米叶向值的全基因组关联分析
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
大规模RNA二级结构预测算法及其并行化研究
类别驱动的RNA二级结构预测方法研究
蛋白质二级和三级结构预测的新途径、新方法研究
带假结的RNA二级结构预测新方法及其针对流感病毒的反向遗传学应用研究