Measuring structure similarities and performing cluster analysis play important roles in protein tertiary structure prediction and protein function prediction. Currently, the most widely used protein structure similarity measures are all based on the distances between residues. Although these measures are suitable for identifying the global structure similarity, they cannot be used to identify the local structure similarity, and they treat proteins as rigid bodies, which ignores the flexible nature of the protein structures. However, the local structure similarity is a key to the protein function prediction, and is very helpful for acquiring the useful information in the evolution. So, it is very important to design a new protein structure similarity measure which can identify both global and local structure similarities. Currently, the most effective ab initio protein tertiary structure prediction methods all use cluster analysis for selecting the final prediction results from large sets of decoys. This step is one of the bottlenecks of these methods. However, the clustering algorithms used here are all undermined by a few parameters whose values need to be determined empirically. We will first concentrate on the designing of a more proper similarity measure for protein structures. And based on this work and our previous progresses in the design of potential-based adaptive clustering methods, we will design more effective clustering methods suitable for protein structure predictions and protein structure classifications.
蛋白质三级结构的相似性度量和聚类分析在蛋白质的结构预测和功能预测中都起着非常重要的作用。目前常用的相似性度量方法都是基于残基间距离的。虽然这种度量方法有利于发现全局的相似性,但它将蛋白质视为刚体,不利于体现蛋白质的柔性和发现蛋白质的局部结构相似性。而识别局部结构相似性,对于预测蛋白质的功能和发掘蛋白质进化过程中留下的大量信息都非常有帮助。因此,研究新的既能够体现全局结构相似性,也能体现局部结构相似性的更合理的相似性度量方法就非常关键。另外,在目前最好的几个蛋白质三级结构从头预测方法中,聚类分析算法都被用来做最后的预测结果筛选。这一步是这些结构预测方法的关键点之一。但是,这一步被采用的聚类算法却都受限于一些由经验得出的参数。本工作将首先研究新的更适合蛋白质结构的相似性度量;并将结合我们最近在基于势能的自适应聚类分析算法方面的研究成果,来设计更加有效的适合蛋白质结构预测的新型聚类分析算法。
蛋白质三级结构的结构比对算法和聚类分析算法在蛋白质的结构预测和功能预测中都起着非常重要的作用。目前常用的结构比对算法大多将蛋白质视为刚体,不利于体现蛋白质的柔性,也不利于同时体现蛋白质的全局结构相似性和局部结构相似性。而蛋白质的局部结构相似性,对于预测蛋白质的功能和发掘蛋白质进化过程中留下的大量信息都非常有帮助。因此,该项目研究设计出了新的高效的,既能够体现全局结构相似性,也能体现局部结构相似性的柔性蛋白质结构比对算法FlexVAFP,这为蛋白质的结构研究提供了一种实用而且高效的工具。另外,在目前最好的几个蛋白质三级结构从头预测方法中,聚类分析算法都被用来做最后的预测结果筛选。这一步是这些结构预测方法的瓶颈之一。多个蛋白质结构间的相似性关系本质上是一种高维空间的关系,只能在高维空间表示,但目前在蛋白质结构聚类时却没有考虑到这一点,还是利用低维聚类来处理。本项目研究了新的高维空间聚类算法,发现基于图论的最大团方法更适合于高维空间聚类。我们设计出了一种利用最大团对蛋白质聚类的方法,并将之应用于蛋白质前期预测结果的结构筛选,获得了较好的结果。这将有利于提高各种蛋白质三级结构预测方法的准确性。总之,在该项目的研究中,我们设计出了新的蛋白质结构比对算法,以及更适合于蛋白质的高维空间聚类算法,该聚类算法可以有效提高蛋白质结构预测结果筛选的准确性。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
基于LASSO-SVMR模型城市生活需水量的预测
基于多模态信息特征融合的犯罪预测算法研究
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
丙二醛氧化修饰对白鲢肌原纤维蛋白结构性质的影响
基于数据驱动的蛋白质三级结构预测算法研究
基于随机图模型的蛋白质三级结构预测算法研究
高维视觉信息的低维表示、度量与识别的理论和方法
自适应聚类分析