Detection of natural selection acting on molecular sequences is of fundamental significance in molecular evolution. Microevolution features (MEF) obtained from molecular sequences are critical in modeling sequence evolution and detecting natural selection. Existing algorithms factored multiple different MEFs into estimating natural selection, accordingly leading to different estimates of natural selection and affecting the reliability of studies on molecular evolution. However, very few attention has been devoted to systematic integrative analyses on MEFs, not mention to detect natural selection based on principal MEF. To address these issues, here we propose to perform systematic integrative analyses on MEFs, extract principal features from all MEFs and devise a new evolutionary model that factors principal MEFs, allows multiple-nucleotide simultaneous mutations and accounts for heterogeneous selective pressures on different clustered regions. Based on principal MEFs and implemented in a maximum-likelihood framework, we aim to develop a new algorithm as well as a new tool that is able to yield accurate estimation of natural selection and achieve unsupervised identification of clusters with heterogeneous selective pressures, which accordingly would provide new insights and methods for in-depth investigation of molecular sequence evolution, gene function and adaptive evolution mechanisms.
自然选择压力检测是分子进化领域重要的基础研究内容之一,且微进化特征是分子进化模型和自然选择压力检测算法的核心。然而,现有选择压力检测算法所考虑的微进化特征各不相同,造成其检测结果也迥然不同,严重影响分子进化等相关研究,其根本原因在于长期缺乏对微进化特征的系统整合分析,缺少基于多层次微进化特征的选择压力检测算法。因此,本项目拟从以上角度出发,系统整合分析分子序列不同层次的多个微进化特征,挖掘提取分子进化的主效特征,建立基于多层次微进化特征的分子进化新模型,结合考虑多位点同时突变和序列区域异质性进化,发展基于多层次微进化特征的选择压力检测新算法和新工具,采用最大似然法设计实现自然选择压力的准确计算和异质性进化区域的无监督聚类,为分子进化、基因功能、生物适应性演化机制等研究提供新思路和新方法。
为开展“基于多层次微进化特征的自然选择压力检测研究”项目,我们主要开展了三个方面的内容。.一、构建CompoDynamics数据库,对序列组分的动态演化提供一个综合、全面的展示,为深入的分子演化研究提供重要参考和启示:鉴于生物体的核酸与蛋白序列组成及相关特征对于研究生物分子演化具有重要意义,我们通过处理来自RefSeq的34,562个基因组的序列信息,得到了基因和基因组层面的包括核酸、密码子、氨基酸、编码能力、蛋白物理化学性质及相分离6个方面的分析结果,构建了CompoDynamics数据库(https://ngdc.cncb.ac.cn/compodynamics)。并内置了SpeciesComparator、FamilyComparator、GOComparator和CompoAnalyzer工具,分别用于在物种、蛋白家族、基因功能等层面对各项组分特征进行分析以及对用户自己提供的序列进行分析。..二、开发分子序列选择压力软件KaKs_Calculator 3.0,实现编码序列和非编码序列的选择压力检测:自然选择压力检测可揭示分子序列的进化过程及基因组演化的复杂分子机制,且非编码序列在多种生物学过程中发挥重要的功能。鉴于目前缺乏一个检测编码序列和非编码序列选择压力的工具包。因此,我们开发了KaKs_Calculator 3.0(https://ngdc.cncb.ac.cn/biocode/tools/BT000001),通过利用真实数据进行测试,验证其在非编码序列的分子演化强度和模式的检测能力。..三、人类长非编码RNA(lncRNA)编码潜能演化分析,系统地揭示人类基因在多物种中编码能力演化相关特征:通过建立跨物种基因组双向分析注释流程,围绕139,014个人类基因,开展了人类与40个物种的基因同源性分析,系统注释lncRNA在多物种间的同源性信息,如比对区域长度、覆盖度、比对相似度、外显子覆盖度、lncRNA序列保守性、基因对应关系、共线性、基因年龄等,构建了LncBook 2.0数据库保守性模块(https://ngdc.cncb.ac.cn/lncbook/omics/conservation)。基于此,在多物种层面分析鉴定三类基因,即保守编码基因(11,619个)、保守lncRNA基因(21,228个)和de novo编码基因(469个)。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
粗颗粒土的静止土压力系数非线性分析与计算方法
基于SSVEP 直接脑控机器人方向和速度研究
近 40 年米兰绿洲农用地变化及其生态承载力研究
人类线粒体基因组自然选择压力减弱与肥胖的相关性研究
基于多层次特征描述的高分辨率遥感影像交通目标检测技术
自然选择和遗传漂变在马铃薯致病疫霉重要数量性状进化中的作用
基于微进化选择压力的骨髓增生异常综合征危险度转化与脏腑传变相关性研究