Accurate and reliable prediction of protein structure from amino acid sequences is one of the most challenging tasks in computational biology. This project studies de novo protein structure prediction and protein design using deep learning. Based on the applicant’s previous work, the following four sub-topics are mainly studied. 1) Contact-map enhancement based multimodal protein secondary structure prediction. This project novelty designed the appealing fusion model for adaptive fusion of evolution information and predicted contact-map, which is beneficial for improving the accuracy of protein secondary structure prediction and angle prediction. 2) Crowd-counting based contact number and distance matrix prediction using multi-task joint learning. Through shared feature learning, the combined loss of contact number and protein distance matrix are defined, and then multi-task joint learning is used to further refine the distance matrix. 3) Multimodal object-detection guided distance matrix feature extraction and evolutionary feature fusion for transmembrane topology identification. According to the explicitly defined “objects” on the predicted distance matrix, the advanced object detection algorithm and multi-modal fusion algorithm are used to refine the transmembrane topology identification. 4) Generated co-evolution information matrix and evolutionary information guided protein design. The co-evolution information and evolution information are generated based on the auto-encoding generative model, and the corresponding amino acid sequence is obtained through Monte Carlo sampling to form a closed-loop system for de novo protein structure prediction and protein design.
从氨基酸序列准确地预测蛋白质结构,是计算生物学中最具挑战性的任务之一。本项目利用深度学习进行从头开始的蛋白质结构预测和结构设计,基于前期工作,主要研究如下四个子课题。1)基于邻接图增强的多模态蛋白质二级结构预测。本项目设计了最新的融合模型进行演化信息与预测邻接图的自适应融合,提升蛋白质二级结构和角度预测的准确性。2)基于拥挤计数的邻接个数、蛋白质残基对距离矩阵的多任务预测。通过共享特征学习,定义邻接个数、蛋白质距离矩阵多任务预测的共同误差,进行多任务联合学习优化距离矩阵。3)基于距离矩阵目标检测增强的多模态膜蛋白跨膜区预测。根据距离矩阵显性定义跨膜区 “目标” ,利用目标检测算法和多模态融合算法优化膜蛋白跨膜区检测。4)基于共演化信息矩阵和演化信息生成的蛋白质设计。基于自编码生成模型生成共演化信息和演化特征,并基于蒙特卡洛采样得到相对应的氨基酸序列,构成蛋白质结构预测与结构设计的闭环系统。
蛋白质结构预测在药学、疫苗开发和其他相关生物学研究中有着广泛的应用。蛋白结构决定了蛋白了功能,基于计算机辅助蛋白结构预测研究主要包括二级和三级结构预测。现有方法一般使用神经网络来解决蛋白质二级结构预测问题,再通过引入具有大数据集的深度残差网络来改进蛋白质接触图预测,从而提高蛋白质三级结构预测的准确率。这些现有方法中,最突出的是Alaphfold2,其在蛋白质结构预测方面取得了里程碑式的成功,但要保证Alaphfold2的预测精度,需要预测的蛋白质拥有足够的共进化特征,对于低同源蛋白质的情况,无法从现有的蛋白质数据库中搜索到低同源性蛋白质,也就没有足够的共进化信息。本项目利用知识蒸馏和表征学习,开发了多种特征增强的方法,研究了蛋白输入特征的选取,研究了蛋白质二级结构的增强预测,研究了蛋白质接触图和折叠增强预测,研究了蛋白与小分子的精细结合,并为后续蛋白设计奠定了充分的研究基础。 本项目主要从表征学习、预训练大模型以及知识蒸馏的角度出发进行了深入研究。具体而言,本项目从蛋白输入特征层面设计了动态评分矩阵 (DSM)特征,并证明 profile 和 PSSM 是所提出的 DSM的两个特例,利用所提出的DSM特征可以显著提升蛋白预测精度。从蛋白特征增强层面,提出了知识蒸馏表示学习的低同源蛋白质结构预测新方法DSM-Distil,用于增强的蛋白质二级结构预测、接触图\距离图预测,从而最终实现精准的蛋白结构预测。在实现了高精度蛋白结构预测之后,基于最新的3D视觉及点云解析数据,深度研究了基于蛋白机构的蛋白小分子靶点预测,在精度和效率上较过去的方法均有大幅提升,为后续蛋白设计提供了扎实的技术积累。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
基于LASSO-SVMR模型城市生活需水量的预测
基于多模态信息特征融合的犯罪预测算法研究
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
丙二醛氧化修饰对白鲢肌原纤维蛋白结构性质的影响
基于深度学习的蛋白质空间结构预测方法研究
基于深度学习方法预测蛋白质翻译后修饰位点
应用机器学习方法预测和分析蛋白质的结构柔性
基于深度迁移学习的微拟球藻蛋白质亚细胞定位预测方法研究