Domain is a fundamental unit of protein structure, folding, function, evolution and design. It is very important to solve protein structure and function prediction. Recent domain annotation mainly depends on highly homologous templates and solved 3D structure. However,only 46.8% protein sequences in UniProt have domain annotations according to the latest data. ThreaDomEX developed by us recently performs better than traditional methods. But it is far from practical application for the protein sequences with bad templates. This project propose a new method by combination of deep learning and multi-threadings to detect domain boundaries. We propose to detect the discontinuous domains based on graph and segment assembling and construction of a more complete domain database of typical model organisms. Furthermore, we will verify the prediction results with X-ray data and the method of I-TASSER-MR. The implementation of the project will improve the domain annotation of the protein sequences of model organisms in the UniProt database.
结构域是蛋白质折叠、功能、进化和设计的基本单位,对蛋白质结构解析、功能注释具有重要意义。但蛋白质序列数据库UniProt只对其中46.8%的序列进行了结构域注释,其原因是当前结构域注释主要依赖近同源比对或已知蛋白质三级结构。申请人等近期开发的ThreaDomEX较以往结构域识别方法有明显优势,但对较难找到高质量远同源模板的蛋白质序列的识别,距离实际应用还有较大距离。本项目拟综合利用新兴的深度学习算法与基于远同源比对方法的优势,开发从序列预测蛋白质结构域的新方法;探索基于图模型和基于序列组装与对称比对的两种不连续结构域检测的新方法;并综合利用X-ray衍射等实验数据和I-TASSER-MR等计算方法,对预测结果进行验证;构建更全面的典型模式生物的蛋白质结构域数据库供研究者使用。本项目的顺利实施将有望大幅提高UniProt中模式生物蛋白质序列结构域注释的比例。
结构域是蛋白质的一个结构层次, 可以看作是蛋白质结构、折叠、功能、进化和设计的基本单位。根据PDB数据库统计,已知结构蛋白质中约40%为多结构域蛋白。结构域的不同组合使多结构域蛋白质具有不同的三级结构并具有不同的功能。准确识别蛋白质结构域对结构基因组学选择目标序列、结构解析至关重要,也是预测和理解蛋白质功能关键的一步。本项目的主要研究内容是蛋白质结构域边界预测、不连续结构域检测、结构域功能注释和构建模式生物蛋白质结构域数据库。在该项目的资助下,申请人与团队开发了基于卷积神经网络结构域边界预测方法DNN-Dom,我们在casp9-casp12数据集上将DNN-Dom与另外三种当时最好的基于机器学习的结构域预测方法DOMpro、PPRODO与DROP进行了对比,结果显示对于单多结构域分类,DNN-Dom在所有这些数据集中都取得了最高的MCC值,同时DNN-Dom在casp9-casp12数据集上进行结构域边界预测的NDO-score值分别为0.867、0.896、0.849和0.873,DBD-score的值分别为0.802、0.838、0.741和0.796,在比较的四种方法中都取得了最高值。最近我们进一步改进了DNN-Dom,开发了基于残差网络和迁移学习预测结构域的方法Res-Dom,进一步提高了单多结构域分类准确性和结构域边界预测性能。尽管DNN-Dom和ResDom在结构域边界划分性能优异,但是不能检测不连续结构域,不连续结构域检测是结构域检测中的难题之一,因此我们利用预测的蛋白质残基接触图,开发基于目标检测的不连续结构域检测方法,在性能上优于当时最好的能预测不连续结构域的工具ThreaDom。此外我们还基于深度卷积神经网络与深度循环神经网络模型构建了预测结构域功能的工具DeepDomGO。综合上述工具的开发,我们对Uniprot数据库中没有结构域注释的人类与八种模式生物的126043条蛋白序列进行了结构域注释,并搭建了结构域数据库网站MOPDdb。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
基于LASSO-SVMR模型城市生活需水量的预测
基于多模态信息特征融合的犯罪预测算法研究
基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
基于Dy:Ln2O3-Al2O3体系的微下拉法高通量晶体制备筛选及直接泵浦实现高功效黄光激光的研究
平面连续与不连续系统的若干定性性质
右端不连续复杂网络的同步与控制
非线性不连续系统的稳定与镇定
不连续保守系统和类不连续系统的特征动力学行为