More than 70% of human genome can be transcribed, while only 2-3% of the transcribed genes are involved in protein coding. Noncoding genes, from which noncoding RNAs transcribed, occupy the majority regions of genome and are free from protein translation. Among them, the noncoding RNAs with a lengh over 200 nt are known as long noncoding RNAs (lncRNAs). lncRNAs serve as important moleculars in various biological regulatory pathways, especially in protein coding regulation, by affecting mRNA stability, transcription, translation, post-translational modifications and transports. .However, the functional study of lncRNAs have been seriously restricted by the short of ortholog prediction algorithm, in which the lower conservation level of lncRNAs makes the traditional coding gene ortholog prediction algorithm can not work in lncRNAs field. Here, we are developing a novel lncRNAs orthlog prediction algorithm for lncRNAs orthologs analysis among species, which makes the following genomic and transcriptome conservation study possible. Finally, a bi-color expression network of lncRNAs and protein-coding genes will be constructed based on conservation analysis, which serves as a vital tool in lncRNAs functional prediction, and provides a reliable theory base in lncRNAs mechanism studies in multiple biological process.
国际ENCODE项目组于2012年公布的研究结果显示人类基因组超过70%的区域能够转录出非编码RNA。其中,转录本长度大于200nt的被称为长非编码RNA。研究表明,长非编码RNA在细胞内具有调节作用,可通过影响mRNA的转录、剪接、转运、稳定性和翻译等过程,进行蛋白质表达的调控。.由于长非编码基因的保守性非常差,在编码基因和小非编码基因的功能研究中常用的同源预测的方法,在长非编码基因功能研究并没有得到应用。长非编码基因同源算法的缺失,制约了其功能研究的进展。本课题拟开发一种新型的专门针对长非编码基因的同源预测算法lncOrth,通过在哺乳动物中进行大规模预测,系统衡量长非编码基因在序列结构和表达模式两个层面的保守性;并基于全转录组表达谱数据构建长非编码基因与编码基因的保守性双色共表达网络,结合保守性分析及网络挖掘算法,进一步预测长非编码基因的功能,为非编码基因机制学研究提供坚实理论基础。
ENCODE项目显示人类基因组超过70%的区域能够转录出非编码RNA。其中,转录本长度大于200nt的被称为长非编码RNA。研究表明,长非编码RNA在细胞内具有调节作用,可通过影响mRNA的转录、剪接、转运、稳定性和翻译等过程,进行蛋白质表达的调控。由于长非编码RNA的保守性非常差,类似编码基因功能研究中常用的同源预测的方法,在长非编码RNA功能研究无法应用。长非编码RNA同源算法的缺失,制约了其功能研究的进展。.本课题针对长非编码RNA的保守性进行研究,对哺乳动物中长非编码RNA进行大规模鉴定、注释及整合,构建了哺乳动物长非编码RNA的参考数据库NONCODE;在此基础上开发面向长非编码RNA的同源预测新算法lncOrth,能跨远缘物种进行预测,具有高准确性,借助lncOrth系统衡量哺乳动物长非编码RNA在序列结构和表达模式两个层面的保守性;开发了结构网络挖掘算法FangNet,利用网络中结点的拓扑重要性实现对关键结点的定位,基于全转录组表达谱数据构建长非编码RNA与编码基因的保守性双色共表达网络,利用FangNet拓扑结构网络挖掘算法评估结点的重要性,对长非编码RNA进行挖掘和功能预测,为非编码RNA的机制学研究提供坚实理论基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
监管的非对称性、盈余管理模式选择与证监会执法效率?
基于LASSO-SVMR模型城市生活需水量的预测
低轨卫星通信信道分配策略
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
基于表达水平、剪切机制、序列和结构的动物非编码RNA保守性与进化的系统分析
保守非基因序列(CNGs),非编码RNA序列(Non-coding RNAs)和内含子(Introns)的信息论研究和功能预测
长非编码RNA序列结构特征信息挖掘及其预测方法研究
潜在功能性长非编码RNA预测算法研究及应用