从蛋白质序列识别连续与不连续结构域的方法研究

基本信息
批准号:61772217
项目类别:面上项目
资助金额:50.00
负责人:王燕
学科分类:
依托单位:华中科技大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:薛志东,张琼,夏梦轩,许微,汪健,吕尧,肖旭文,成鹏,彭珂
关键词:
远同源不连续结构域结构预测蛋白质结构域
结项摘要

Domain is a fundamental unit of protein structure, folding, function, evolution and design. It is very important to solve protein structure and function prediction. Recent domain annotation mainly depends on highly homologous templates and solved 3D structure. However,only 46.8% protein sequences in UniProt have domain annotations according to the latest data. ThreaDomEX developed by us recently performs better than traditional methods. But it is far from practical application for the protein sequences with bad templates. This project propose a new method by combination of deep learning and multi-threadings to detect domain boundaries. We propose to detect the discontinuous domains based on graph and segment assembling and construction of a more complete domain database of typical model organisms. Furthermore, we will verify the prediction results with X-ray data and the method of I-TASSER-MR. The implementation of the project will improve the domain annotation of the protein sequences of model organisms in the UniProt database.

结构域是蛋白质折叠、功能、进化和设计的基本单位,对蛋白质结构解析、功能注释具有重要意义。但蛋白质序列数据库UniProt只对其中46.8%的序列进行了结构域注释,其原因是当前结构域注释主要依赖近同源比对或已知蛋白质三级结构。申请人等近期开发的ThreaDomEX较以往结构域识别方法有明显优势,但对较难找到高质量远同源模板的蛋白质序列的识别,距离实际应用还有较大距离。本项目拟综合利用新兴的深度学习算法与基于远同源比对方法的优势,开发从序列预测蛋白质结构域的新方法;探索基于图模型和基于序列组装与对称比对的两种不连续结构域检测的新方法;并综合利用X-ray衍射等实验数据和I-TASSER-MR等计算方法,对预测结果进行验证;构建更全面的典型模式生物的蛋白质结构域数据库供研究者使用。本项目的顺利实施将有望大幅提高UniProt中模式生物蛋白质序列结构域注释的比例。

项目摘要

结构域是蛋白质的一个结构层次, 可以看作是蛋白质结构、折叠、功能、进化和设计的基本单位。根据PDB数据库统计,已知结构蛋白质中约40%为多结构域蛋白。结构域的不同组合使多结构域蛋白质具有不同的三级结构并具有不同的功能。准确识别蛋白质结构域对结构基因组学选择目标序列、结构解析至关重要,也是预测和理解蛋白质功能关键的一步。本项目的主要研究内容是蛋白质结构域边界预测、不连续结构域检测、结构域功能注释和构建模式生物蛋白质结构域数据库。在该项目的资助下,申请人与团队开发了基于卷积神经网络结构域边界预测方法DNN-Dom,我们在casp9-casp12数据集上将DNN-Dom与另外三种当时最好的基于机器学习的结构域预测方法DOMpro、PPRODO与DROP进行了对比,结果显示对于单多结构域分类,DNN-Dom在所有这些数据集中都取得了最高的MCC值,同时DNN-Dom在casp9-casp12数据集上进行结构域边界预测的NDO-score值分别为0.867、0.896、0.849和0.873,DBD-score的值分别为0.802、0.838、0.741和0.796,在比较的四种方法中都取得了最高值。最近我们进一步改进了DNN-Dom,开发了基于残差网络和迁移学习预测结构域的方法Res-Dom,进一步提高了单多结构域分类准确性和结构域边界预测性能。尽管DNN-Dom和ResDom在结构域边界划分性能优异,但是不能检测不连续结构域,不连续结构域检测是结构域检测中的难题之一,因此我们利用预测的蛋白质残基接触图,开发基于目标检测的不连续结构域检测方法,在性能上优于当时最好的能预测不连续结构域的工具ThreaDom。此外我们还基于深度卷积神经网络与深度循环神经网络模型构建了预测结构域功能的工具DeepDomGO。综合上述工具的开发,我们对Uniprot数据库中没有结构域注释的人类与八种模式生物的126043条蛋白序列进行了结构域注释,并搭建了结构域数据库网站MOPDdb。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
3

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
4

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

DOI:
发表时间:2018
5

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022

王燕的其他基金

批准号:81560695
批准年份:2015
资助金额:38.00
项目类别:地区科学基金项目
批准号:40572169
批准年份:2005
资助金额:40.00
项目类别:面上项目
批准号:31500854
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目
批准号:31501622
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目
批准号:81000547
批准年份:2010
资助金额:20.00
项目类别:青年科学基金项目
批准号:81671700
批准年份:2016
资助金额:56.00
项目类别:面上项目
批准号:61904201
批准年份:2019
资助金额:23.00
项目类别:青年科学基金项目
批准号:30700162
批准年份:2007
资助金额:19.00
项目类别:青年科学基金项目
批准号:31501759
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目
批准号:31301164
批准年份:2013
资助金额:20.00
项目类别:青年科学基金项目
批准号:51278259
批准年份:2012
资助金额:80.00
项目类别:面上项目
批准号:81671252
批准年份:2016
资助金额:57.00
项目类别:面上项目
批准号:10801114
批准年份:2008
资助金额:12.00
项目类别:青年科学基金项目
批准号:11902131
批准年份:2019
资助金额:27.00
项目类别:青年科学基金项目
批准号:50778092
批准年份:2007
资助金额:34.00
项目类别:面上项目
批准号:61201411
批准年份:2012
资助金额:26.00
项目类别:青年科学基金项目
批准号:51078194
批准年份:2010
资助金额:38.00
项目类别:面上项目
批准号:81503618
批准年份:2015
资助金额:18.00
项目类别:青年科学基金项目
批准号:51504083
批准年份:2015
资助金额:21.00
项目类别:青年科学基金项目
批准号:51203040
批准年份:2012
资助金额:25.00
项目类别:青年科学基金项目
批准号:59702005
批准年份:1997
资助金额:11.00
项目类别:青年科学基金项目
批准号:81260518
批准年份:2012
资助金额:49.00
项目类别:地区科学基金项目
批准号:51872286
批准年份:2018
资助金额:60.00
项目类别:面上项目
批准号:81001214
批准年份:2010
资助金额:19.00
项目类别:青年科学基金项目
批准号:81560745
批准年份:2015
资助金额:37.00
项目类别:地区科学基金项目
批准号:81571390
批准年份:2015
资助金额:57.00
项目类别:面上项目
批准号:81503075
批准年份:2015
资助金额:18.50
项目类别:青年科学基金项目
批准号:50808114
批准年份:2008
资助金额:21.00
项目类别:青年科学基金项目
批准号:31301800
批准年份:2013
资助金额:23.00
项目类别:青年科学基金项目
批准号:81760833
批准年份:2017
资助金额:30.00
项目类别:地区科学基金项目
批准号:81100258
批准年份:2011
资助金额:23.00
项目类别:青年科学基金项目
批准号:31772646
批准年份:2017
资助金额:60.00
项目类别:面上项目
批准号:40002014
批准年份:2000
资助金额:22.00
项目类别:青年科学基金项目
批准号:81360541
批准年份:2013
资助金额:49.00
项目类别:地区科学基金项目
批准号:61308096
批准年份:2013
资助金额:26.00
项目类别:青年科学基金项目
批准号:81602229
批准年份:2016
资助金额:17.00
项目类别:青年科学基金项目
批准号:81860808
批准年份:2018
资助金额:31.00
项目类别:地区科学基金项目
批准号:81772188
批准年份:2017
资助金额:55.00
项目类别:面上项目
批准号:10474085
批准年份:2004
资助金额:25.00
项目类别:面上项目
批准号:81860643
批准年份:2018
资助金额:35.00
项目类别:地区科学基金项目
批准号:41606082
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:81402974
批准年份:2014
资助金额:23.00
项目类别:青年科学基金项目
批准号:51472240
批准年份:2014
资助金额:83.00
项目类别:面上项目
批准号:81403410
批准年份:2014
资助金额:23.00
项目类别:青年科学基金项目
批准号:81200097
批准年份:2012
资助金额:24.00
项目类别:青年科学基金项目
批准号:81903988
批准年份:2019
资助金额:21.00
项目类别:青年科学基金项目
批准号:11126022
批准年份:2011
资助金额:5.00
项目类别:数学天元基金项目
批准号:60407007
批准年份:2004
资助金额:25.00
项目类别:青年科学基金项目
批准号:21377072
批准年份:2013
资助金额:82.00
项目类别:面上项目
批准号:11371307
批准年份:2013
资助金额:56.00
项目类别:面上项目
批准号:30900205
批准年份:2009
资助金额:21.00
项目类别:青年科学基金项目
批准号:41907102
批准年份:2019
资助金额:25.00
项目类别:青年科学基金项目
批准号:61574084
批准年份:2015
资助金额:64.00
项目类别:面上项目
批准号:51406079
批准年份:2014
资助金额:26.00
项目类别:青年科学基金项目
批准号:51874120
批准年份:2018
资助金额:60.00
项目类别:面上项目
批准号:30872464
批准年份:2008
资助金额:30.00
项目类别:面上项目
批准号:30270608
批准年份:2002
资助金额:19.00
项目类别:面上项目
批准号:31801159
批准年份:2018
资助金额:27.00
项目类别:青年科学基金项目
批准号:31872927
批准年份:2018
资助金额:60.00
项目类别:面上项目
批准号:21602238
批准年份:2016
资助金额:21.00
项目类别:青年科学基金项目
批准号:61176034
批准年份:2011
资助金额:74.00
项目类别:面上项目
批准号:81101235
批准年份:2011
资助金额:22.00
项目类别:青年科学基金项目
批准号:51678316
批准年份:2016
资助金额:62.00
项目类别:面上项目
批准号:61401459
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目

相似国自然基金

1

平面连续与不连续系统的若干定性性质

批准号:11771315
批准年份:2017
负责人:刘长剑
学科分类:A0301
资助金额:48.00
项目类别:面上项目
2

右端不连续复杂网络的同步与控制

批准号:61263020
批准年份:2012
负责人:杨鑫松
学科分类:F0304
资助金额:44.00
项目类别:地区科学基金项目
3

非线性不连续系统的稳定与镇定

批准号:60874006
批准年份:2008
负责人:慕小武
学科分类:F0301
资助金额:30.00
项目类别:面上项目
4

不连续保守系统和类不连续系统的特征动力学行为

批准号:19975039
批准年份:1999
负责人:何大韧
学科分类:A2503
资助金额:8.00
项目类别:面上项目