Non-coding RNA annotation is one of the most important work for understanding genome information. The current software tools are not accurate and easily used enough. Moreover, they can not deal with the scale sequencing data. In my previous NSFC project, we improved the prediction accuracy by selecting high-quality negative samples and employing ensemble classification. This project is the extension of the previous work. We intend to take use of MapReduce platform for the large scale data, and annotate the non-coding RNA accurately and fast.. This project will include three major works. First, we will improve the sensitivity of homologous searching by the "local-global" alignment, which will be implemented by MapReduce for accelerating. Second, the prediction performance will be improved by the ensemble voting strategy, which is also accelerated by MapReduce. Third, we will develop the paralleled non-coding RNA annotation tool, which can run in the multiple operation system.. This project is the extension of my previous NSFC project, and will apply the achievement in the large scale sequencing data. This project is helpful for studying bioinformatics methods, developing computational biology tools and doing research on non-coding RNA.
非编码RNA识别是理解基因组信息的重要工作之一。但目前的研究还存在识别不准确、软件通用性差以及无法处理大规模数据的缺点。在前期的青年基金研究工作中,我们提出了优化反例训练样本和利用投票机制提高识别准确率。本项目是前期工作的继续。面对规模日益增大的测序数据,本项目利用MapReduce并行计算框架,快速准确地实现非编码RNA的识别和标注。. 本项目的主要工作包括:1. 使用“局部-全局”比对算法提高同源搜索的敏感性,并用MapReduce框架降低时间开销;2. 利用MapReduce和集成投票策略提高大规模不平衡数据的分类效果;3.针对不同种类的非编码RNA研究并开发跨平台、并行的非编码RNA标注系统。. 本项目是青年基金项目的延伸,将使青年基金的研究成果在大规模测序数据中得到应用。本项研究对开拓生物信息学方法、开发实用的计算生物学系统和研究非编码RNA分子功能都具有重要意义。
本项目对非编码RNA的挖掘方法展开研究,并且开发并行化挖掘系统软件。通过4年的工作,课题组对microRNA、tRNA和circleRNA三种重要的非编码RNA研发了一整套成熟的挖掘机制,尤其是提出的优化反例集挖掘microRNA策略得到了多位国际同行的高度评价,2017年Nature子刊论文多次引用和评述了该工作。项目执行期间,课题组以本项目为第一标注共发表了35篇SCI论文,超额完成了预期目标。代表作发表在Briefings in Bioinformatics(IF2015=8.399)、PLoS Computational Biology(IF2015=4.587)、Bioinformatics(IF2015=5.766)等生物信息学领域最高水平的期刊上。在甲藻中发现了超过100条新的miRNA基因,并进行了生物实验验证。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于LASSO-SVMR模型城市生活需水量的预测
低轨卫星通信信道分配策略
基于多模态信息特征融合的犯罪预测算法研究
Loss of a Centrosomal Protein,Centlein, Promotes Cell Cycle Progression
Complete loss of RNA editing from the plastid genome and most highly expressed mitochondrial genes of Welwitschia mirabilis
基于投票机制的非编码RNA“从头预测”识别方法研究
非编码RNA基因预测及分类研究
基于多源生物数据的长非编码RNA预测方法研究
基于转录组的非编码RNA分类和预测算法的研究