Currently, high-throughput sequencing technology and various of experimental work have confirmed that there is a large number of long non-coding RNAs which have important biological functions and almost involved in all the stages of biological processes. However, nowadays the researches are almost familiar with protein coding genes, while few is about long non-coding RNAs and so as the unified classification standards. This situation greatly limits the follow–up research about the function mechanism of long non-coding RNAs. In this project we first combine the published, original RNA binding protein experimental data which generated by our laboratory and human long non-coding RNA data-set together. Next, focus on the correspondence between RNA binding protein specific identified motifs and long non-coding RNAs, defines a novel classification system of human long non-coding RNA. We take the motif as the key node in the relationship-network between long non-coding RNA and RNA binding protein, and combine the statistical learning theory and machine learning models to construct a mapping table between human long non-coding RNA, motif and RNA binding protein. This classification system of human long non-coding RNA categories will provides a comprehensive and reliable data base for further in-depth study of long non-coding RNA.
长非编码RNA(long-non-coding RNA,lncRNA)是一类数目众多,具有重要生物学功能的RNA分子。当前,大规模的lncRNA陆续被鉴定出来,为推进其深入研究,需要科学的分类注释,并细化分类标准。但是,现有分类标准对于更深入挖掘其生物学功能却没有直接、明确的指导意义。因此,本项目基于人类lncRNA的数据集合,结合国际上已经公开发表的RNA绑定蛋白(RBP)的实验数据,将人类lncRNA与RBP特异性识别序列(motif)的对应关系做为深入研究的基础。结合统计学习理论和启发式搜索算法,以RBP识别motif作为连接lncRNA和已知功能RBP的关键节点,将能够与RBP产生相互作用的人类lncRNA根据不同的RBP类型,进行系统的类别划分和初步的功能验证。本工作的成果,将加速人类lncRNA的研究全面进入到实现生物学功能意义的新阶段。
长非编码RNA(lncRNA)是一类数目众多,具有重要调控功能的RNA分子。本项目以鉴定lncRNA与RNA bind protein (RBP)结合的motif为核心,以通过motif的特征为长非编码RNA进行细致化分类为落脚点,展开了一个为长非编码RNA进行功能注释的科学性研究。首先,本项目收集了ENCODE数据库中高质量的eCLIP数据用作motif鉴定的训练数据集。其次,通过构建卷积神经网络模型挖掘lncRNA与RBP的复杂相互作用模式,进而对lncRNA与RBP结合的特异性motif进行精确鉴定、预测。最终,我们发现发现含有同一类型motif的lncRNA会更加倾向于结合的同一种类型的RBP去发挥相似的生物学功能。本工作的成果,将基本实现从功能注释的维度对lncRNA进行全新的类别划分,为lncRNA的功能研究提供了新的借鉴和理论基础,也提供了一个lncRNA研究系统性、群体性、互作性研究的新角度。
{{i.achievement_title}}
数据更新时间:2023-05-31
监管的非对称性、盈余管理模式选择与证监会执法效率?
基于SSVEP 直接脑控机器人方向和速度研究
低轨卫星通信信道分配策略
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度
多视角识别长非编码RNA和人类复杂疾病关联预测研究
长链非编码RNA识别及其功能挖掘方法研究
长非编码RNA序列结构特征信息挖掘及其预测方法研究
RNA结合蛋白介导长链非编码RNA亚细胞定位的机制研究