Accurately predicting the binding affinities of large sets of protein-ligand complexes is an extremely challenge in bioinformatics and computer aided drug design, with a significant bearing on virtual screening and drug discovery. Despite intense efforts in developing scoring functions, there are still some drawbacks on them, such as poor accuracy and others, which have been the major roadblock toward cost-effective drug discovery. Meanwhile, large amounts of protein-ligand complex structures and their affinities have been measured, making it possible to study more accurate scoring function by means of deep learning. Therefore, this project focus on establishing more accurate scoring function to improve predicting protein-ligand affinity based on deep learning. The main works include integrating and developing the database for the study of scoring function, researching the methods of converting protein-ligand complex structures into numerical features, researching and building the semi-supervised multi-task deep learning model to train scoring function, and evaluating the results on docking power, ranking power, scoring power and screening power of scoring function. The expected results of these researches will improve the accuracy of scoring function and the success rate of drug discovery, ultimately contributing to public health.
从大量蛋白-配体复合物中准确预测其亲和力,一直是计算机辅助药物设计和生物信息研究中的难点问题。准确的蛋白-配体亲和力打分函数对虚拟筛选和药物发现有着重要意义。尽管在打分函数上投入了大量研究,但是目前打分函数仍然存在准确率较差等缺陷,从而制约了新药的研发。同时,大量蛋白-配体复合物结构及其亲和力的测定,也为深度学习研究更准确的打分函数提供了可能。因此,为了提高预测蛋白-配体亲和力的能力,本项目围绕使用深度学习算法建立更准确的蛋白-配体亲和力打分函数展开研究。主要工作包括整合和开发用于打分函数研究的数据集;研究将蛋白-配体复合物结构转换为数值特征的方法;研究和构建半监督多任务深度学习模型进行打分函数训练,并对结果在打分函数的对接能力、排序能力、打分能力和筛选能力上进行评测。通过这些研究,预期得出在四种能力上表现更佳的蛋白-配体亲和力打分函数,从而提高新药研发成功率,最终为公众健康做出贡献。
准确预测蛋白和配体之间的亲和力,是生物信息和计算机辅助药物设计研究中的难点问题,对虚拟筛选和药物研发有着重要意义。尽管在蛋白-配体亲和力打分函数上投入了大量研究,但是目前打分函数仍然存在准确率较差等缺陷,这也制约了新药的研发。因此,本项目主要围绕使用深度学习算法建立更准确的蛋白-配体亲和力打分函数进行研究。本项目的主要研究内容包括整合和开发更适应的用于蛋白-配体亲和力打分函数研究的数据集;研究将蛋白-配体复合物结构转换为数值特征的方法;研究和构建合适的深度学习模型进行训练,并对结果在打分函数的对接能力、排序能力、打分能力和筛选能力上进行测试。在第一部分研究内容执行过程中,通过收集和整合多个数据库中的蛋白与配体的高质量结构数据,并结合软件生成和人工筛选等流程,最终构建了约19348个蛋白-配体复合物结构,为后续研究提供了数据支撑。在第二部分研究内容执行过程中,通过测试了四种深度学习架构和三种特征工程方法,最终生成了一个表现较好的打分函数模型。该模型在CASF-2016数据集上预测的蛋白-配体亲和力与实验测得的亲和力之间的pearson相关系数达到了0.7928,表现优异。同时该模型在与其它打分函数进行比较时也表现出了准确而且稳定的预测能力。在第三部分研究内容执行过程中,使用半监督多任务的深度学习方法,进一步优化了打分函数的对接能力。经过测试,优化后的模型在CASF-2016数据集上的打分能力达到了0.8018,排序能力的predictive index达到了0.68,对接能力的准确率达到了67.7%。经过以上内容的研究,本项目不仅探索了较好地表征蛋白-配体复合物结构的特征工程方法,同时也基本实现了建立一个较好的蛋白-配体亲和力打分函数这一研究目标。这些研究成果能够提高蛋白-配体亲和力的预测能力,从而有望加速新药研发过程,提高新药研发成功率,最终为新药研发和公众健康做出贡献。
{{i.achievement_title}}
数据更新时间:2023-05-31
农超对接模式中利益分配问题研究
硬件木马:关键问题研究进展及新动向
拥堵路网交通流均衡分配模型
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究
蛋白-配体亲合性打分函数的系统评估
发展评价蛋白-配体相互作用打分函数的方法体系
基于结构的药物分子设计中蛋白-配体结合能的计算:发展新一代的经验打分函数
基于深度学习的函数型数据分析与处理