已知蛋白质氨基酸序列,通过计算技术,从头(de novo)预测该蛋白质的高分辨率原子级的天然立体结构。预测目标的限制是:蛋白质肽链的氨基酸残基个数小于150,且与已知蛋白质序列同源一致性小于30%。.基于天然蛋白质的立体结构处于自由能全局最小状态的假设,通过面向计算的建模,把从头预测问题转换为能量函数优化问题,用启发式搜索算法作为基本的构象搜索方法,通过多目标优化模型和并行计算实现,融合各种自由能量函数所体现的领域知识,尽可能地利用粗粒度的实验数据剪裁构象空间,预测出具有最低自由能量的原子分辨率的蛋白质三维结构,或一组候选结构。这些结构,要么与相应的天然结构十分接近,要么有助于进一步预测和验证该蛋白质的结构和生化功能。.本项目从方法上创新从头预测的解决模型,从结果上更有效地解决蛋白质原子级别的高分辨三维结构的从头预测问题,进而对基于蛋白质原子级别的三维结构的许多后续战略性应用提供关键帮助。
蛋白质的空间结构决定其生化性质和功能。利用计算机方法预测蛋白质的空间结构,就是根据蛋白质结构由其氨基酸序列决定且总是具有最低自由能这一假设,从计算机生成的目标蛋白质的不同空间构象中找出最接近天然状态的空间结构。所谓de novo预测蛋白质结构,就是在已知蛋白质结构数据库中找不到同源结构的情况下,仅依据预测目标的氨基酸序列所进行的蛋白质结构预测。.重要成果如下:基于能量函数的不准确性且有用性假设,认为目前采用的所有可计算的蛋白质结构的能量函数定量地都不够精确用来标定天然结构的蛋白质所具有最低自由能;但这些能量函数都定性地在识别蛋白质天然结构时有用。基于这个假设,本研究建立了一个用并行元启发解决类似优化问题的通用框架,在能量函数和搜索方法两个层面实现了创新。在能量函数应用方面,把多个能量函数的有用性实施在多个搜索线程中;同时,采用不同能量函数的并行搜索线程隐式地交换它们的搜索参数,从而降低各个能量函数的不准确性。在搜索方法方面,并行的搜索线程可以通过交换搜索参数而协同搜索,从而发挥多种启发式搜索方法的不同特点。.基于上述的解决方案,实现了两个验证算法。开发了基于并行蚁群算法的de novo预测器pacBackbone:采用同质的搜索算法并行运行,每个并行的线程优化不同的能量函数,这些并行的蚁群线程共享同一个信息素从而达到实时交换搜索参数的目的。pacBackbone在CASP8/9的测试集的性能有相当的竞争力。基于pacBackbone,将另一种经典的de nove预测器加入到并行的pacBackbone中,扩展为pacBackbone+预测器。在pacBackbone+中,异质的搜索算法并行运行,并交换其搜索到的中间结果。在另一个经典的测试集上,pacBackbone+表现了很好的时间和精度性能。.本项目的研究显示,并行元启发策略因其特有的分布性能和反馈机制是蛋白质结构预测的首选搜索策略。一方面,元启发复杂的并行特性能够为融合不同能量函数提供良好的非线性平台,元启发的灵活反馈机制很好地适合解决蛋白质结构预测中能量函数有用性且不准确的难点。另一方面,不同搜索策略的融合需要在更细的粒度下进行,并行融合多种元启发则提供了细粒度的融合方案,传播了不同元启发方法的搜索智慧。不但为解决de novo预测蛋白质结构问题进行了可行的实践,而且还可以为解决多目标优化提供了借鉴。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
基于LASSO-SVMR模型城市生活需水量的预测
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于多模态信息特征融合的犯罪预测算法研究
中国绵羊Y染色体de novo组装和父系遗传结构分析
百万核扩展的基因组De Novo组装
致聋基因de novo突变遗传来源及传递方式研究
大额牛全基因组De novo测序及其起源进化和环境适应性研究