Virtual screening is to select the most promising ligands as lead compounds via molecule docking, which may speed up drug design and reduce costs of drug development dramatically. The key of virtual screening is to accurately predict the targeted protein-ligand compound activity based on the conformation from molecule docking. The early predict methods based on biochemical empirical equations have the disadvantages of low precision and generalization. And in the machine learning models, their prior knowledge-based feature sets are difficult to describe the details in spatial structures. These seriously restrict the development of prediction effect. In this research, we plan to construct a deep learning network for targeted protein-ligand compound activity prediction, which will learn the new features from multiple 3D biochemical structural encoding of compound conformations, and adaptively generate multi-viewed 3D deep descriptors embedding abundant structural and biochemical properties. In such network, the 3D deep descriptors from different degree of freedom system will be combined to conduct the targeted protein-ligand compound activity prediction. At the same time, we also present the strategy of reliable negative sample extraction, and the training trick for imbalanced training samples. Based on the above work, we may expect to build a prediction model with high precision and generalized performance. Our research may provide a good deal of insight into the mechanism of interaction between targeted protein and ligand, and strong support for the development of virtual screening. Therefore, it has both the theoretical research significance and practical value.
虚拟筛选通过分子对接技术,挑选最有希望与靶蛋白结合的配体作为先导化合物,能够大幅加快新药研发速度,降低药物研发成本。根据分子对接产生的构象,准确预测靶蛋白-配体复合物活性是虚拟筛选的关键。早期根据生化经验方程打分的预测方法存在精度不高、通用性低的缺陷;基于机器学习的预测方法中,特征集合依赖专家知识构造,并且难以精准表达空间结构细节,制约其预测效果的提升。本项目拟构建面向靶蛋白-配体复合物活性预测的深度学习网络,对复合物构象的多种3D生化结构编码进行特征学习,自适应生成蕴含丰富结构特性和生化性质的多视角3D深度描述子,并融合多自由度体系下3D深度描述子实现联合预测;同时,提出可靠负样本筛选策略,以及针对不平衡数据的网络训练方法,从而打造高精度、泛化能力强的预测模型。本项目的研究有助于深入理解靶标蛋白质与配体间相互作用机制,对虚拟筛选领域的发展提供有力支撑,具有重要的理论研究价值和现实意义。
在药物开发领域,研发疾病靶蛋白与配体复合物的活性预测工具,有助于深入理解靶标蛋白质与配体化合物相互作用机制,为潜在药物分子筛选提供信息来源和决策支持。 本项目目标是构建面向靶白-配体复合物活性预测的深度学习网络,研究内容包括:(1)建立多视角3D深度描述子生成网络;(2)研究融合不同自由度体系下3D深度描述子的Capsule网络;(3)提出深度学习网络在不平衡样本分布下的训练策略。针对这些任务,本项目主要研究结果为:(1)提出基于多视角抽取描述时空特异蛋白质交互特征,实现多视角3D深度描述子生成网络。该模型采用多子网并行的方式从原始蛋白质结构及理化属性两类特征描述符中学习3D深度描述子,并利用集成学习策略整合多视角深度表示;(2)构建capsule深度学习网络的蛋白质-配体复合物候选构象的评估方法,利用图卷积运算的消息传输机制,从蛋白质-配体复合物分子结构中,提取各残基相互作用和拓扑信息,筛选高质量的蛋白质-配体复合物结合构象;(3)利用随机欠采样策略和Boostrap采样策略,避免不平衡数据给以上网络模型带来偏向性。运用本项目的核心技术,我们在多个生物信息学相关问题进行研究,取得的成果包括:(1)设计RetinaNet网络自动从生物医学文献自动识别pathway通路图的基因实体和关系,进而运用该方法挖掘精神疾病文献中基因组和蛋白组学信息;(2)设计DMCTOP网络模型同时预测靶蛋白全链拓扑结构和N末端朝向;(3)设计IMPContact网络模型预测靶蛋白helical交互残基和靶蛋白-配体结合位点;(4)设计TM-ZC网络模型预测膜蛋白helical折叠的残基Z坐标,为靶蛋白的结构预测和功能注释和提供新视角。在本项目支持下,项目组共发表论文18篇,其中被SCI检索14篇,在CCF推荐国际会议上发表论文3篇;获授权专利1项,获授予软件著作权1项。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
跨社交网络用户对齐技术综述
基于LASSO-SVMR模型城市生活需水量的预测
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
内点最大化与冗余点控制的小型无人机遥感图像配准
基于食品蛋白—多配体复合物的活性成分载体的研究
基于深度骨架模型的多模态多视角3D手势识别的研究
基于多视角深度特征融合的遥感视频运动目标检测跟踪
基于多模态融合以及深度神经网络的视频内容自然语言描述自动生成的研究