识别蛋白质超家族之间远程同源性的算法研究

基本信息
批准号:11201334
项目类别:青年科学基金项目
资助金额:22.00
负责人:陈科
学科分类:
依托单位:天津工业大学
批准年份:2012
结题年份:2015
起止时间:2013-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:闵卫东,孙宝山,梁晓丹,李俊飞,王莲莲
关键词:
同源性进化树功能位点相似性蛋白质分类结构比较
结项摘要

Identification of protein homology has a pivotal role in study of molecular evolution, prediction of tertiary structure of proteins and annotation of functional sites of proteins. Currently, protein homology is usually identified by sequence similarity or global structural similarity. However, sequence similarity and global structural similarity can only detect homology for proteins within the same superfamily and cannot recognize the homology relationship between proteins across different protein superfamilies due to the fact that different protein superfamilies do not have similar sequences nor similar global structures. To this end, we propose a method that identifies homology relationship across different protein superfamilies. The proposed method utilizes the local structural similarity, a measure distinctive from the known sequence similarity and global structural similarity measure. Based on the concept of local structural similarity, the proposed project is novel in the following three aspects: first, we propose a graph-based algorithm that identifies similar local structures (for instance, similar functional sites) on the surface of different proteins; second, to the best of our knowledge, this project for the first time studies the homology relationship and constructs the evolutionary tree between different protein superfamilies; third, the proposed project is the first to utilize the similarity between functional sites for the classification of proteins.

蛋白质的同源性识别对于研究分子进化、预测蛋白质的空间结构以及注释蛋白质的功能位点都有重要作用。当前,蛋白质之间的同源性主要通过序列或整体结构的相似度来识别。然而,序列以及整体结构的相似性仅能识别蛋白质超家族内的同源关系,却无法识别蛋白质超家族间的同源关系,这是由于不同的蛋白质超家族既不具有相似的序列也不具有类似的结构形态。本项目首次致力于识别蛋白质超家族之间的远程同源性。为此,我们提出了与序列相似度以及整体结构相似度完全不同的度量,即局部区域在结构和功能上的相似度。基于局部相似度概念,本研究项目主要包括以下三点创新:1)提出了一种基于图论的算法来探测不同蛋白质在局部结构和功能上的相似性(譬如功能位点的相似性);2)首次研究蛋白质超家族间的同源关系并构建它们的进化树;3)首次利用功能位点的相似度对蛋白质进行分类,并构建蛋白质功能位点分类数据库。

项目摘要

本项目致力于研究蛋白质超家族之间的远程同源性。蛋白质超家族之间缺乏全局的相似性,仅在序列和结构的局部具有微弱的相似性。项目在四个方面做了深入的研究:第一,识别蛋白质远程同源性的算法研究;第二,构建蛋白质超家族之间的进化树;第三,DNA-蛋白质结合位点预测;第四,面向多个分类模型的集成算法研究。在第一项研究中,蛋白质与小分子的结合位点被表示为数值特征,然后采用单链路的聚类方法将具有局部相似性的结构聚集在一起。该算法被应用到了ATP的结合位点上,并成功识别出多个不同的蛋白质超家族具有相似的ATP结合位点。在第二项研究中,我们构建了蛋白质功能位点之间的距离矩阵,并依据距离矩阵构建了蛋白质之间的进化树。这些进化树揭示了超家族之间分化的先后顺序。在第三项研究中,我们使用蛋白质序列的局部相似性,采用机器学习的方法来预测DNA-蛋白质结合位点。在多个数据集上的测试表明,本项目提出的方法显著优于现存的多个方法。在第四项研究中,我们研究了如何将多个不同分类模型整合到一起。我们提出了递减子空间集成学习方法和平均分布集成算法。在数十个数据集上的测试表明,这两种集成学习算法优于现存的多个集成学习算法。这四项研究内容对于如何识别和应用蛋白质超家族之间的远程同源性都有重要意义。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020
3

氯盐环境下钢筋混凝土梁的黏结试验研究

氯盐环境下钢筋混凝土梁的黏结试验研究

DOI:10.3969/j.issn.1001-8360.2019.08.011
发表时间:2019
4

桂林岩溶石山青冈群落植物功能性状的种间和种内变异研究

桂林岩溶石山青冈群落植物功能性状的种间和种内变异研究

DOI:10.5846/stxb202009292521
发表时间:2021
5

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022

陈科的其他基金

批准号:81301286
批准年份:2013
资助金额:23.00
项目类别:青年科学基金项目
批准号:51902319
批准年份:2019
资助金额:25.00
项目类别:青年科学基金项目
批准号:51505083
批准年份:2015
资助金额:21.00
项目类别:青年科学基金项目
批准号:11474327
批准年份:2014
资助金额:90.00
项目类别:面上项目
批准号:21905011
批准年份:2019
资助金额:26.00
项目类别:青年科学基金项目
批准号:11802176
批准年份:2018
资助金额:30.00
项目类别:青年科学基金项目
批准号:81902358
批准年份:2019
资助金额:20.00
项目类别:青年科学基金项目
批准号:11874395
批准年份:2018
资助金额:64.00
项目类别:面上项目
批准号:81772721
批准年份:2017
资助金额:57.00
项目类别:面上项目
批准号:81101940
批准年份:2011
资助金额:23.00
项目类别:青年科学基金项目
批准号:81772731
批准年份:2017
资助金额:57.00
项目类别:面上项目
批准号:31300912
批准年份:2013
资助金额:22.00
项目类别:青年科学基金项目
批准号:51204108
批准年份:2012
资助金额:25.00
项目类别:青年科学基金项目
批准号:51675337
批准年份:2016
资助金额:62.00
项目类别:面上项目
批准号:81200599
批准年份:2012
资助金额:23.00
项目类别:青年科学基金项目
批准号:41401462
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:81870589
批准年份:2018
资助金额:57.00
项目类别:面上项目
批准号:81402105
批准年份:2014
资助金额:23.00
项目类别:青年科学基金项目

相似国自然基金

1

基于序列谱进化信息的蛋白质远程同源性检测方法研究

批准号:61300112
批准年份:2013
负责人:刘滨
学科分类:F0213
资助金额:23.00
项目类别:青年科学基金项目
2

蛋白质分子对接的远程识别机制研究

批准号:11174093
批准年份:2011
负责人:黄延昭
学科分类:A2013
资助金额:58.00
项目类别:面上项目
3

基于自然语言处理语义分析技术的蛋白质远同源性检测和折叠识别

批准号:61672184
批准年份:2016
负责人:刘滨
学科分类:F0213
资助金额:62.00
项目类别:面上项目
4

高速远程滑坡早期识别研究

批准号:41272309
批准年份:2012
负责人:熊承仁
学科分类:D0705
资助金额:82.00
项目类别:面上项目