Since the function of long non-coding RNA correlates with their subcellular location in cell, the study of their subcellular location is very helpful for understanding the relations of sequence, structure and function of long non-coding RNA. In this project, based on the growing of the experimental data of subcellular location of long non-coding RNA and the urgent need of their function research, the detailed sub-datasets of the disease-related long non-coding RNA subcellular locations with sequence similarity and multiple-location information will be constructed and further perfected. On the basis of the deep and systematic analysis of the physical chemstry characteristics of bases, the k-mer component and conservative motif of sequence, topological secondary structure and the geometric flexibility of RNA etc features will be performed for the long non-coding RNA of different subcellular location, the important information parameters for predicting lncRNA subcellular location will be extracted. The effective combination vectors will be constructed by combinating sequence characteristics, pseudo-nucleotide composition, gene ontology annotation and position-correlation weight matrix etc information parameters. By developing the increment of diversity combined with support vector machine algorithms that is proposed in our protein subcellular location study, we will propose the new algorithm and theory for predicting the subcellular location of long non-coding RNA including multiple-location in order to further improve the predictive capability, enhance prediction credibility. It will be helpful to understanding the function of lncRNA.
长链非编码RNA(lncRNA)的功能和它在细胞内的定位密切相关,对lncRNA的亚细胞定位信息的识别有助于lncRNA序列-结构-功能的关系研究。本项目针对lncRNA亚细胞定位实验数据的不断增长及其功能研究的迫切需要,进一步建立和完善与疾病有关的、考虑序列冗余的、包括多定位信息的lncRNA亚细胞定位数据子库。在此数据子库的基础上,深入系统地分析不同亚细胞位置lncRNA的碱基物理化学特性、序列k-mer组分、保守模体、拓扑二级结构和RNA的物理空间柔性等特征,提取与亚细胞定位相关的信息学参数。将这些信息参数与lncRNA的伪核苷酸组成信息、基因本体论注释信息和位置关联权重矩阵信息等,组成有效的组合向量,发展我们在蛋白质亚细胞定位问题中所提出的离散增量结合支持向量机等组合算法,提出预测包括多定位的lncRNA亚细胞定位的有效算法和理论,增强预测可信度,这将有助于理解lncRNA的功能。
长链非编码RNA(lncRNAs)是一类长度大于200个核苷酸的非编码RNA,缺乏完整的开放阅读框,不具有编码蛋白能力,或编码功能受限。研究证明lncRNAs在多种人类复杂疾病中起到重要调控作用,包括癌症的发生、发展与预后。LncRNAs的功能和它在细胞内的定位密切相关,因而,对lncRNAs的亚细胞定位信息的识别有助于了解lncRNAs的生物学机制。本项目建立了有明确实验证实的注释信息的、与序列相似性相关的包括单定位和多定位信息的长链非编码RNA亚细胞定位数据子库(涉及到五个亚细胞位置:细胞核,细胞质,细胞质基质,核糖体和外泌体);新构建了一个与外泌体相关的lncRNAs数据子库,包含定位在细胞核和细胞质两个亚细胞位置;新构建了植物lncRNA和mRNA数据子库。在以上数据子库的基础上,深入系统地分析了不同亚细胞位置的lncRNAs的碱基物理化学特性、序列k-mer组分特性、保守模体、拓扑二级结构和RNA的物理空间柔性等特征,提取了与亚细胞定位相关的信息学参数。将这些信息参数与lncRNAs的伪核苷酸组成信息、基因本体论注释信息和位置关联权重矩阵信息等,融合成有效的组合向量,综合离散增量、k紧邻、位置能量关联函数和支持向量机等算法,提出了预测单定位和多定位的lncRNAs亚细胞位置的有效算法和理论,获得了很好的预测效果。并从表观遗传修饰的角度进一步分析了与疾病相关的不同功能的lncRNAs的序列和结构特征,研究了其与基因表达、调控和疾病产生等之间的关系。项目取得的相关结论可以更好地理解lncRNAs数据的功能和生物学意义,为lncRNAs在细胞中的定位、分布及其它们的序列与结构特征及与人类疾病相互关系等研究提供参考,为进一步加速lncRNAs序列-结构-功能的关系研究提供帮助。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
玉米叶向值的全基因组关联分析
农超对接模式中利益分配问题研究
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
RNA结合蛋白介导长链非编码RNA亚细胞定位的机制研究
长非编码RNA的亚细胞定位差异表达及其潜在功能分析
基于多网络融合的长链非编码RNA与疾病关系预测研究
长链非编码RNA HULC在细胞凋亡中的作用和机制