蛋白质残基间相互作用预测算法研究及其在三级结构预测中的应用

基本信息
批准号:31770775
项目类别:面上项目
资助金额:60.00
负责人:卜东波
学科分类:
依托单位:中国科学院计算技术研究所
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:郑伟谋,孔鲁鹏,鞠富松,朱建伟,魏国正,张琪,李艳博,曹晓然,王冰
关键词:
三级结构预测蛋白质深度学习Markov随机场模型残基间相互作用
结项摘要

A protein is generally composed of a sequence of amino acids connected by peptide bonds. Under the interactions among amino acids, proteins will spontaneously fold into specific tertiary structures in nature environment. Thus, the accurate prediction of residue-residue contacts is fatally important to protein structure prediction as well as understanding of protein functionalities. . This proposal aims at the accurate prediction of residue-residue contacts from protein sequence. We plan to investigate the relationship between protein sequence and protein structure in the joint space of “sequence-structure-evolution”, and design prediction algorithms based on biological insights. Specifically, we plan to develop the following prediction algorithms: .1..To reduce the noise generated in the evolutionary process, we design a “low rank and sparsity” approach to decompose residue-residue correlation matrix. .2..To make multiple-sequence alignment consistent with residue-residue contacts, we design a re-alignment algorithm to optimize multiple-sequence alignment. .3..To better approximate joint likelihood of Markov random field, we propose to use composite-likelihood instead of pseudo-likelihood. .4..As an application of the predicted residue-residue contacts, we propose to recognize protein fold type based on the similarity of predicted contact patterns. We plan to develop a deep convolutionary neural network to achieve this objective. . These studies will promote the prediction of protein structure. In addition, these algorithms would also facilitate research in the field of natural language process, as the essence of both natural languages and proteins is the formation of complex structure from sequence.

蛋白质是由残基连接而成的长链。残基间的相互作用引导蛋白质折叠成特定的空间结构,以行使生物学功能。因此,准确预测残基相互作用,将有助于认识蛋白质结构和功能。.本课题研究残基相互作用预测问题。研究思路是:“在序列-结构-进化联合空间中考察序列与结构之间的关联关系,基于生物学观察设计统计模型和预测算法”。研究内容包括:(1)设计残基间相关性矩阵的低秩稀疏分解算法,以降低进化噪声的影响;(2)设计考虑相互作用的“迭代重比对”算法,以提高多序列联配与残基相互作用的一致性,并降低对联配中序列条数的要求;(3)设计“复合似然”模型,显式刻画残基间相互作用;和伪似然相比,复合似然是马尔科夫随机场模型的更优近似,且更契合预测相互作用这一目标,从而可提高预测精度;(4)采用深度学习技术,从预测出的残基相互作用中抽取折叠型相关信息,提高折叠型识别精度。.上述算法将集成于已有软件平台中,提供结构预测服务。

项目摘要

本课题研究残基相互作用预测问题,采用“在序列-结构-进化联合空间中考察序列与结构之间的关联关系,基于生物学观察设计统计模型和预测算法”的研究思路,取得了如下成果:.(1)提出了直接处理 MSA 数据的神经网络Seq-SetNet。Seq-SetNet 由两个关 键模块组成:) 编码器模块,该模块采用多序列联配作为输入,为每个残基编码 成上下文相关的残基突变特征。) 聚合器模块从所有同源序列中提取特征,然后 将这些特征进一步转换为包含结构属性的特征。编码器模块会自动学习有效的 特征从而避免了人工的特征工程。由于聚合器模块使用了对称函数,Seq-SetNet 将同源蛋白作为集合进行处理,使其预测结果不会随这些蛋白质的顺序变化。在 广泛使用的基准测试集上,Seq-SetNet 在蛋白质二级结构预测和扭转角预测任务上都有显著的提高。 .(2)提出了直接从 MSA 预测蛋白质残基间距离的神经网络CopulaNet。大多数残基间距离预测方法采用间接的策略,即从MSA中人工提取特征,进而用神经网络来推断;但这种间接策略无法充分利用MSA携带的信息。我们提出了一种端到端的深度神经网络 CopulaNet,可以直接从 MSA 估计残基间距离。 CopulaNet 的关键部分包括:)用于为每个残基建模上下文相关突变信息的编码 器;)用来建模残基共进化的聚合器。在 CASP13 目标蛋白质上,CopulaNet 在预测结构的质量和效率有显著改进。 .(3)提出了基于距离的快速蛋白质折叠方法FFD。准确的残基间距离预测 让从头预测蛋白质结构更加可靠并高效。已有的方法通常将蛋白质结构用内坐 标表示,使得残基间距离很难高效的并行计算。使用全原子的笛卡尔坐标又导致太大的自由度,增大搜索空间。我们提出了一个基于残基间距离的蛋白质折叠方法,该方法可以高度并行化并且支持在 GPU 设备上运算。为了平衡并行效率和搜索空间,我们使用姿态来表示每个残基,在基本不增加搜索空间的同时,显著提升并行度。实验结果表明FFD相比 trRosetta 速度提升100倍。.(4)研制了蛋白质结构预测预测软件ProFOLD和ProALIGN,其中ProFOLD性能超过AlphaFold,正努力赶超AlphaFold2。ProALIGN采用深度学习技术学习“联配模体”,进而准确预测蛋白质联配。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
4

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
5

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018

卜东波的其他基金

批准号:30800168
批准年份:2008
资助金额:20.00
项目类别:青年科学基金项目
批准号:61272318
批准年份:2012
资助金额:80.00
项目类别:面上项目

相似国自然基金

1

基于优化片段搜索和残基接触预测的全新蛋白质结构从头预测算法设计

批准号:31670723
批准年份:2016
负责人:龚海鹏
学科分类:C0504
资助金额:60.00
项目类别:面上项目
2

基于集成学习的蛋白质相互作用界面热点残基预测方法研究

批准号:31301101
批准年份:2013
负责人:夏俊峰
学科分类:C0608
资助金额:18.00
项目类别:青年科学基金项目
3

基于残基特异性力场的蛋白质结构从头预测

批准号:21573009
批准年份:2015
负责人:蒋帆
学科分类:B0302
资助金额:67.00
项目类别:面上项目
4

基于数据驱动的蛋白质三级结构预测算法研究

批准号:11871290
批准年份:2018
负责人:杨建益
学科分类:A0604
资助金额:52.00
项目类别:面上项目