Long non-coding RNAs (lncRNAs) play an important role in the formation of relevant diseases and biological activities via various mechanisms, e.g. regulating DNA methylation, histone modification, chromatin modification and being precursor of small RNAs. Prediction of lncRNA gene structures and locations is a key problem for studying lncRNAs, especially for lncRNA function analysis. According to low accuracy of lncRNA prediction based on RNA-Seq data, this project proposes a high-reliable approach for lncRNA prediction based on multi-source biological data including the second generation sequencing reads, genome sequences, gene annotations, protein databases and mass spectrometry data. The project will extract biological information including nucleic acid sequences, transcription factor binding sites (TFBSs), 3' polyadenylation signals and so on from the multi-source biological data using bioinformatics methods such as statistical analysis, mathematical modeling and machine learning. Significantly, the project will present several algorithms for transcriptome reconstruction of overlap genes, filtering low quality transcripts and ncRNA recognition respectively, which can jointly improve the accuracy of lncRNA prediction. As a result, the project will realise an efficient method for lncRNA prediction, which can provide reliable information of gene structures and locations for further function analysis of the lncRNAs.
长非编码RNA(lncRNA)参与调节DNA甲基化、组蛋白修饰、染色质重构及作为小RNA前体,在相关疾病形成和生命活动中发挥着重要作用。lncRNA的基因结构和位置预测是lncRNA研究的关键性问题,是lncRNA功能分析的基础。针对当前基于RNA-Seq数据的lncRNA预测准确度不高的现状,本项目拟以二代测序读段、基因组序列、基因注释、蛋白质库、质谱数据等多源生物数据为基础,建立高可靠性的lncRNA预测方法。本项目将运用统计分析、数学建模、机器学习等生物信息学方法,从多源生物数据中提取核酸序列、转录因子绑定位点(TFBSs)、3'加尾信号等生物信息,建立重叠基因的转录本重建算法、低质量转录本过滤算法及ncRNA识别算法,以提高lncRNA预测的准确度。本项目将实现高效的lncRNA预测方法,该方法能够为lncRNA功能分析提供可靠的基因结构和位置信息。
长非编码RNA(long noncoding RNA, lncRNA)是一类具有重要生物学功能的非编码RNA,在红细胞生成、胚胎干细胞全能性、癌症、胚胎发育、神经发生和神经精神障碍等生物过程或疾病中发挥作用。对lncRNA的准确预测是lncRNA特征分析、转录调控研究、功能和机制研究等后续研究的基础,现已成为生物信息学研究的热点。随着高通量测序技术的发展和应用,产生了大量可用于lncRNA预测的生物数据。这些数据来源广泛,主要包括基因注释、基因组序列、表观遗传、转录因子绑定位点、物种间序列比对、保守性分值等。本项目有效利用以上多源生物数据,重点针对lncRNA预测相关的生物信息学方法展开研究,主要涉及lncRNA预测算法的研究和设计、lncRNA特征分析、lncRNA特异性的转录因子绑定位点分析、lncRNA数据采集和计算平台的构建等。. 项目执行期间,成功设计并实现了基于支持向量机(support vector machine, SVM)的lncRNA预测方法、基于随机森林(random forest, RF)的lncRNA预测方法,完成对lncRNA基因的特征分析、lncRNA特异性的转录因子绑定位点分析,构建了基于高性能计算和云计算的lncRNA数据采集和计算平台。本项目共资助发表正式刊物论文11篇,其中已发表SCI/EI检索论文5篇,中文核心期刊论文2篇,另有3篇论文被录用/在印(1篇EI检索)。此外,在重要会议发表论文/摘要3篇。申请计算机软件著作权1项。. 本项目的研究工作为lncRNA预测研究提供了良好的生物信息学方法和平台,加深了学界对lncRNA的认识。未来课题组将立足于该项目的研究工作,逐步扩充和丰富lncRNA信息平台的内容(包括算法工具和数据库),不断提出富有意义和创新性的生物信息学方法,为更加全面深入地研究和解析lncRNA提供支持。
{{i.achievement_title}}
数据更新时间:2023-05-31
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
基于LASSO-SVMR模型城市生活需水量的预测
基于多模态信息特征融合的犯罪预测算法研究
F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度
多源数据驱动CNN-GRU模型的公交客流量分类预测
基于结构和多源异构信息融合的大规模长非编码RNA功能预测
基于多网络融合的长链非编码RNA与疾病关系预测研究
长非编码RNA序列结构特征信息挖掘及其预测方法研究
多视角识别长非编码RNA和人类复杂疾病关联预测研究