非编码RNA(ncRNA)包含几十种不翻译成蛋白质且有重要功能的RNA分子。高通量转录组测序可以获得数百万ncRNA序列,但现有算法仅可以对其中的30%甚至更少进行分类和预测。本项目以转录组数据为背景和应用对象,在去除噪音序列和未鉴定的蛋白质的编码序列的基础上,使用秩和检验和Relif等方法,提取有分类力的二级结构、自由能、字串频率和语义关系特征,再利用fRNAdb数据库中的各类ncRNA数据训练出高精度的多分类器,进而开发出在线分析的软件。用该软件分析飞蝗转录组,并用实验验证新发现的ncRNA,以加深对飞蝗调控机制的认识,为控制飞蝗的型变、迁飞和生殖提供理论基础。本项目获得的新算法是基于各类ncRNA之间的显著性差异来分类的,比联配方法更具一般性,能广泛用于各个物种。软件给出的ncRNA高精度分类与预测结果,对ncRNA功能,调控网络和表观遗传学的研究有重要的理论意义和应用价值。
到目前为止,本项目组共发表了15篇标注了本项目编号的文章,其中中文核心3篇,EI一篇,SCI论文11篇。(1)主持人作为第一和通信作者 的研究性论文“A Novel Algorithm for the Precise Calculation of the Maximal Information Coefficient”在Nature旗下期刊《Scientific Reports》上发表。 该论文对哈佛大学和麻省理工的教授Reshef, Lander等人于2011年发表在《Science》上的最大信息系数的计算方法ApproxMaxMI进行了全面改进,把精度从原来的30%提高到了99%。(2)主持人作为第一作者的ncRNA预测软件ncSOFT的文章投稿到在Nature旗下期刊《Scientific Reports》上(SREP-15-27142),已提交了revision稿件,很快就会接受了。我们提出的软件是目前预测ncRNA精度和覆盖度最好的软件.(3) 主持人作为第一作者的研究性EI论文利用感冒病毒的HA蛋白质序列就可以准确预测A型流感病毒,在理论和实践上意义都很大。(4) 主持人作为通信作者发表了研究性论文“基因组装配中存在重复序列叠加时重叠群计数的推广的Lander-waterman定理”,适用于基因组中有大量repeat存在时的contig计数。(5) 主持人作为共同作者,讨论了生物种群动力系统中常用的存在共振p-Laplacian 边值的问题中解的存在性定理。(6) 主持人发现一种图表示方法可以区分不同的ncRNA类,准确度较高。我们已经把这篇算法文章投稿到plos one,目前已经送审(PONE-S-15-69675)。本文中我们对18类ncRNA进行了近乎完美的分类,与其他8种算法比较,我们的算法最好。(7)主持人作为第一作者,和中科院康乐院士合作的文章 “Population intrinsic factors trigger the outbreaks of locust plagues based on long-term historical records”即将投稿PNAS。解决了飞蝗群体动力学的几个核心问题,可以用于蝗灾的预测中了。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
非编码RNA基因预测及分类研究
长非编码RNA功能预测网络模型与算法研究
基于多相似度融合的非编码RNA结构比对和分类识别
基于非编码RNA转录组学对甲状腺相关眼病纤维化的相关基因和信号通路的研究