蛋白质结构模体识别及结构预测算法研究

基本信息
批准号:61272318
项目类别:面上项目
资助金额:80.00
负责人:卜东波
学科分类:
依托单位:中国科学院计算技术研究所
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:郑伟谋,刘克松,于春功,陆辉志,冯琛,黄琴,李锦,韩冬,凌彬
关键词:
随机场联配蛋白质结构结构模体
结项摘要

The threading approaches aim to predict protein 3D structure from it primary sequence. With Structure information of templates available, threading approaches were treated as the most effective and accurate strategy for protein structure prediction. However, the existing approaches suffer from the low quality of sequence-structure alignment, and the fold recognition ratio is only 2/3 for remote homology protein. .The project follows the strategy to put sequence-structure relationship under the sequence-structure-evolutionary joint space. Specifically, we employ network-flow technique to identify the most conserved structure framework shared by a set of remote-homogues, and define H-form to capture the conserved structure motifs. We further extend chain CRFs (conditional random field) to treeCRFs to take into consideration the long-distance contacts. To reduce the potential Golf-hole phenomena in energy landscape, linear programming technique is used to maximize the attracting basin where native conformation lies in. This way, the probability to reach the native structure is significantly improved. Preliminary experimental results suggest the effectiveness of the strategies in the study. We will also implement all algorithms into a practical software, and provide prediction servie through internet for the community.. Protein structure is an example of the common problem that a string of items form a complicated structure under effects of local- and global-interactions. Thus, the achievements of the study can be used to solve similar problems in other fields, say natural language processing, information retrieval, etc.

依据蛋白质序列推断空间结构的规范法,理论上能够利用模板的结构信息,但现有算法产生的序列-结构联配质量有待提高,对远同源蛋白折叠类型的识别率仅约2/3。. 本课题沿着"在序列-结构-进化联合空间下考察序列-结构之间的关联关系"这一思路,使用网络流技术识别远同源蛋白质的保守结构框架;利用H-form来刻画维持蛋白质结构框架稳定性的关键结构模体;将链式条件随机场扩展到树型条件随机场,以实现考虑关键结构模体信息的序列-结构联配;使用线性规划技术优化能量函数,以降低能量表面的Golf-hole现象,扩大天然构像所在吸引盆的面积,从而提高搜索到天然构像的可能性。作为最终成果,将提供高性能的结构预测软件包及开放的预测服务网站。. 蛋白质结构是一大类共性问题的典型代表:线性序列在局部作用与全局作用的综合影响下呈现出复杂结构。本课题成果将启发我们解决信息检索等领域的类似问题,推动并丰富信息科学。

项目摘要

本课题围绕着蛋白质结构预测问题,沿着“在序列-结构-进化联合空间下考察序列-结构之间的关联关系”思路,取得了如下成果:.. (1) 识别了稳定蛋白质结构的关键“序列-结构”信号 . 对螺旋区域,我们发现Ai-Ai+3和Ai-Ai+4残基对具有显著的高奇率比,从而表明螺旋区域中存在强信号;对于空间上相邻、但是序列上不相邻的两个二级结构单元,我们发现了特定的结构模式,用H型模体刻画了其结构几何,并建立了H型模体数据库。..(2) 提出了一种改进能量函数设计的优化方案.通常势函数中包含多达数十个能量项,本课题采用 “逆向采样”策略和线性规划技术,设计了一种新的蛋白质能量函数项加权方案,实验结果表明改进后的能量函数能有效提高从头预测法的效率和精度。..(4) 提出预测蛋白质残基接触的低秩稀疏矩阵分解算法. 我们提出了低秩稀疏矩阵分解方法去除残基接触预测中的背景噪声。实验结果表明,由于去掉了背景噪声,我们的方法显著提高了残基接触的预测准确度。. .(5)提出了预测蛋白质残基接触的复合似然最大化算法. 我们提出复合似然最大化算法估计马尔科夫随机场模型的参数。实验结果表明,我们的方法优于其他经典的参数估计算法,如置信传播算法、伪似然最大化算法和平均场近似算法等。 ..(6)提出预测蛋白质三级结构的树形条件随机场模型. 我们只选择比较关键的残基接触,将残基接触图简化成嵌套图,并提出树形随机场模型对联配进行建模。实验结果表明,和经典的三级结构预测软件HHpred相比,我们的方法可以预测出质量更好的蛋白质三级结构。.. (9) 应用软件开发与CASP比赛检验. --- 蛋白质三级结构预测软件TreeThreader:开发了高通量蛋白质三级结构预测平台FALCON@home上,为生物学家提供预测服务,迄今已预测50,000多个蛋白质结构,运行于全球40,000个CPU核上( http://protein.ict.ac.cn/falcon/). --- 蛋白质残基间相互作用预测软件COLORS(http://protein.ict.ac.cn/COLORS). --- 蛋白质残基包埋预测软件ACRF(http://protein.ict.ac.cn/ACRF). . 我们参加了蛋白质结构预测比赛CASP,在CASP11中获得第9名。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020
3

面向云工作流安全的任务调度方法

面向云工作流安全的任务调度方法

DOI:10.7544/issn1000-1239.2018.20170425
发表时间:2018
4

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022
5

丙二醛氧化修饰对白鲢肌原纤维蛋白结构性质的影响

丙二醛氧化修饰对白鲢肌原纤维蛋白结构性质的影响

DOI:10.7506/spkx1002-6630-20190411-143
发表时间:2020

卜东波的其他基金

相似国自然基金

1

蛋白质拓扑结构的识别、构建和预测

批准号:39960023
批准年份:1999
负责人:罗辽复
学科分类:C0504
资助金额:11.00
项目类别:地区科学基金项目
2

基于图着色算法的蛋白质结构预测的模型研究

批准号:61261025
批准年份:2012
负责人:赵凌琪
学科分类:F0124
资助金额:42.00
项目类别:地区科学基金项目
3

天然无序蛋白质无序区域及其分子识别特征域的预测算法研究

批准号:61602280
批准年份:2016
负责人:方春
学科分类:F0213
资助金额:20.00
项目类别:青年科学基金项目
4

基于体矿化模型构模及可视化并行算法研究

批准号:51304078
批准年份:2013
负责人:马斌
学科分类:E0410
资助金额:20.00
项目类别:青年科学基金项目