Identification of protein homology has a pivotal role in study of molecular evolution, prediction of tertiary structure of proteins and annotation of functional sites of proteins. Currently, protein homology is usually identified by sequence similarity or global structural similarity. However, sequence similarity and global structural similarity can only detect homology for proteins within the same superfamily and cannot recognize the homology relationship between proteins across different protein superfamilies due to the fact that different protein superfamilies do not have similar sequences nor similar global structures. To this end, we propose a method that identifies homology relationship across different protein superfamilies. The proposed method utilizes the local structural similarity, a measure distinctive from the known sequence similarity and global structural similarity measure. Based on the concept of local structural similarity, the proposed project is novel in the following three aspects: first, we propose a graph-based algorithm that identifies similar local structures (for instance, similar functional sites) on the surface of different proteins; second, to the best of our knowledge, this project for the first time studies the homology relationship and constructs the evolutionary tree between different protein superfamilies; third, the proposed project is the first to utilize the similarity between functional sites for the classification of proteins.
蛋白质的同源性识别对于研究分子进化、预测蛋白质的空间结构以及注释蛋白质的功能位点都有重要作用。当前,蛋白质之间的同源性主要通过序列或整体结构的相似度来识别。然而,序列以及整体结构的相似性仅能识别蛋白质超家族内的同源关系,却无法识别蛋白质超家族间的同源关系,这是由于不同的蛋白质超家族既不具有相似的序列也不具有类似的结构形态。本项目首次致力于识别蛋白质超家族之间的远程同源性。为此,我们提出了与序列相似度以及整体结构相似度完全不同的度量,即局部区域在结构和功能上的相似度。基于局部相似度概念,本研究项目主要包括以下三点创新:1)提出了一种基于图论的算法来探测不同蛋白质在局部结构和功能上的相似性(譬如功能位点的相似性);2)首次研究蛋白质超家族间的同源关系并构建它们的进化树;3)首次利用功能位点的相似度对蛋白质进行分类,并构建蛋白质功能位点分类数据库。
本项目致力于研究蛋白质超家族之间的远程同源性。蛋白质超家族之间缺乏全局的相似性,仅在序列和结构的局部具有微弱的相似性。项目在四个方面做了深入的研究:第一,识别蛋白质远程同源性的算法研究;第二,构建蛋白质超家族之间的进化树;第三,DNA-蛋白质结合位点预测;第四,面向多个分类模型的集成算法研究。在第一项研究中,蛋白质与小分子的结合位点被表示为数值特征,然后采用单链路的聚类方法将具有局部相似性的结构聚集在一起。该算法被应用到了ATP的结合位点上,并成功识别出多个不同的蛋白质超家族具有相似的ATP结合位点。在第二项研究中,我们构建了蛋白质功能位点之间的距离矩阵,并依据距离矩阵构建了蛋白质之间的进化树。这些进化树揭示了超家族之间分化的先后顺序。在第三项研究中,我们使用蛋白质序列的局部相似性,采用机器学习的方法来预测DNA-蛋白质结合位点。在多个数据集上的测试表明,本项目提出的方法显著优于现存的多个方法。在第四项研究中,我们研究了如何将多个不同分类模型整合到一起。我们提出了递减子空间集成学习方法和平均分布集成算法。在数十个数据集上的测试表明,这两种集成学习算法优于现存的多个集成学习算法。这四项研究内容对于如何识别和应用蛋白质超家族之间的远程同源性都有重要意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
内点最大化与冗余点控制的小型无人机遥感图像配准
氯盐环境下钢筋混凝土梁的黏结试验研究
桂林岩溶石山青冈群落植物功能性状的种间和种内变异研究
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
基于序列谱进化信息的蛋白质远程同源性检测方法研究
蛋白质分子对接的远程识别机制研究
基于自然语言处理语义分析技术的蛋白质远同源性检测和折叠识别
高速远程滑坡早期识别研究