With the exponential growth in sequencing data, to predict protein three-dimensional (3D) structure accurately from sequence is critical for studying its functions. Current methods of 3D structure prediction have widely utilized predicted structural features, thus improving the prediction in structural features is an important way to advance protein 3D structure prediction. However, current methods to predict structural features were mostly trained based on information from a fixed number of neighbored residues due to the employed learning algorithms, and thus are limited for improvement. Meanwhile, there is yet the application to this problem by the recently reviving recurrent neural network (RNN) that can effectively learn information from remote residues. Here, we will focus on the following studies: (1). To improve prediction of structural features including secondary structure and residue contact by integrating the RNN algorithm with the big data of sequences from the integrated microbial genomes database; (2). To improve protein 3D structure prediction by developing new algorithms in fold recognition and structure refinement based on the improved prediction of structural features; (3). To identify proteins with important functions in model organisms by combining the newly developed methods with our previously developed methods on protein function prediction . We aim to develop one of the most comprehensive and accurate methods in protein structure prediction, and thus we can find many proteins with important functions that will provide molecular targets for disease study and drug discovery.
随着序列数据的指数增长,准确地从蛋白质序列预测三维空间结构成为研究其分子功能的关键点。目前的三维结构预测方法广泛地利用了预测的残基结构特征,因此,提高结构特征预测是推进三维结构预测的重要手段。然而,当前的结构特征预测方法由于所采用的训练算法限制,只能利用相邻固定数目残基的信息,从而约束了方法的发展。最近复兴的递归神经网络算法可有效获取远程信息,但尚未用于解决此类问题。因此,本项目研究重点是:(1)利用递归神经网络深度学习,结合微生物宏基因组序列大数据,提高包括二级结构和残基接触在内的结构特征的预测;(2)利用提高的结构特征预测结果,发展新的折叠识别及结构优化算法,进一步推进三维结构预测;(3)利用这些新发展的方法,结合我们早先开发的功能预测方法,在模式生物中发现重要功能的蛋白质。本项目力争发展出最全面而准确的结构预测方法,进而发现新的重要功能蛋白,为下一步疾病研究及药物设计提供靶目标。
蛋白质是生命的重要物质基础,几乎参与每个生命活动。蛋白质功能由三维结构决定,但是实验技术费时费力、价格昂贵。因此,预测蛋白质结构和功能具有重要的研究和应用价值。本项目主要利用深度学习技术,研发先进的蛋白质一维和三维结构算法,推进三维结构预测精度,并用于预测蛋白质重要功能,支撑疾病机理发现及药物设计。. 本项目进展顺利,主要目标基本完成,取得了一系列创新性成果:. 1)在蛋白质结构性质方面,利用深度学习神经网络技术,提出了以5°为一个格点作近似连续的离散化方法预测蛋白质肽平面之间的二面角,该方法可以提高2-6%的预测准确率;. 2)在蛋白质三维结构预测方面,开发出一种从头计算预测蛋白质三级结构方法 SPOT-Fold,利用预测蛋白质一维结构信息作为约束,结合分子动力学采样,获得三维结构构象;进一步根据经验势函数评估,筛选三维结构模型。该方法的预测准确性超过其它同类方法,并能够准确预测CASP中的新折叠蛋白质,性能良好。. 3)在结合功能位点预测方面,开发出一种基于结构的机器学习方法 SPRINT-pep,采用随机森林算法进行肽结合残基预测,并根据归簇算法进一步提高预测准确性;基于模板的对肽结合蛋白和肽结合位点预测方法 SPOT-Peptide,可以同时预测特定肽组合所形成的肽结合域和肽结合位点;并基于多任务学习技术,开发出一种基于序列的蛋白质-小分子结合位点方法 MTDsite,用于同时预测包括DNA,RNA,糖类等多种重要分子类型与蛋白质的结合位点,性能均超过目前同类方法。以及蛋白质-蛋白质结合位点预测方法GraphPPIS。. 4)在蛋白质整体性能方面,开发出一种基于序列的蛋白质结构感知方法GraphSol,该方法结合预测的蛋白质残基接触图和图注意力神经网络框架在蛋白质溶解度预测中取得了良好效果。. 5)在分子相互作用方面,开发出一种端到端的深度学习框架 DrugVQA,该框架利用二维距离图来表征蛋白质结构,可将药物蛋白质相互作用任务转换为经典的视觉问答(VQA)问题,显著提高药物筛选准确率。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
基于LASSO-SVMR模型城市生活需水量的预测
内点最大化与冗余点控制的小型无人机遥感图像配准
基于多模态信息特征融合的犯罪预测算法研究
氯盐环境下钢筋混凝土梁的黏结试验研究
基于深度学习方法预测蛋白质翻译后修饰位点
基于深度迁移学习的微拟球藻蛋白质亚细胞定位预测方法研究
基于深度强化学习的新闻事件预测方法研究
基于深度学习的蛋白质折叠识别方法研究