Hot spots are residues contributing the most of the binding free energy in protein-protein interaction yet accounting for a small portion of interface residues. These residues are observed to be crucial for maintaining the stability of protein association. Experimental hot spots detection methods are not applicable on a large scale since they are time consuming and expensive. Therefore, reliable and efficient computational methods for identifying hot spots are greatly desired and urgently required. In this project,we will first perform a comprehensive survey of previous hot spot databases,including the verified data extracted from peer-reviewed published literature,and develop a continually updated database that collects, curates and manages hot spots data. Second,we will extract a wide variety of features from a combination of protein sequence and structure information and apply feature selection to remove noisy and irrelevant features,with the purpose of reducing the computational complexity and improving the classification accuracy. Finally,we will employ the ensemble classifier approaches,including the rotation forest and meta learning predictor, to identify hot spots. The genetic algorithm will also be used to tune various parameters to further improve the prediction accuracy of hot spots. The implementation of this project will not only provide valuable insight into the principles governing protein-protein interaction,but also help to narrow down the search space for drug design.
热点残基是蛋白质相互作用界面上贡献绝大部分结合自由能的极少数关键氨基酸残基,对蛋白质结合的稳定性起着关键的作用。但是通过生物实验技术检测热点残基费时费力且代价昂贵,利用计算方法预测热点残基则可以有效弥补这一不足。本项目将从蛋白质序列和结构特征出发,在热点残基的数据整合、特征编码和分类模型构建等方面进行深入研究。首先,通过整合各种热点残基数据源,并结合文献检索提取的热点残基数据,建立一个完整的热点残基数据库;然后从蛋白质的氨基酸序列和空间结构出发,提取多种与热点残基可能相关的特征并利用特征选择方法,去除其中的噪声和不相关的特征以降低计算复杂度和提高分类精度;最后应用旋转森林和元学习分类器这两种集成算法来预测蛋白质相互作用界面热点残基,并结合遗传算法优化参数,从而最终建立高可靠性的热点残基预测模型。本项目的研究将为我们理解蛋白质相互作用机制和治疗相关疾病的药物设计提供理论上的依据。
热点残基是蛋白质相互作用界面上贡献绝大部分结合自由能的极少数关键氨基酸残基,对蛋白质结合的稳定性起着关键的作用。但是通过生物实验技术检测热点残基费时费力且代价昂贵,利用计算方法预测热点残基则可以有效弥补这一不足。围绕着蛋白质相互作用界面热点残基预测这一重要问题,本项目从相互作用热点残基数据源、特征编码方式以及分类模型三个层面开展研究。在热点残基数据库构建方面,首先基于文献数据分析技术比较2007年至2014年所有基于机器学习预测热点残基文献中的训练集,然后在此基础上构建了蛋白质相互作用热点残基数据库;在热点残基特征编码方式研究方面,本项目收集整理了已有的一些特征,在此基础上提出了一些新的特征编码方式,最终构建得到 4大类(理化特征、结构特征、微环境特征以及其他特征),总共108个热点残基特征;在分类模型构建方面,提出基于两步特征选择法和支持向量机的热点残基预测方法,基于加权特征描述符和集成学习策略的蛋白质相互作用位点预测方法,以及基于动态集成学习系统的蛋白质-配基相互作用热点残基预测方法。本项目所取得的研究成果将为我们理解蛋白质相互作用机制和治疗相关疾病的药物设计提供一些理论上的依据。
{{i.achievement_title}}
数据更新时间:2023-05-31
路基土水分传感器室内标定方法与影响因素分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
基于LASSO-SVMR模型城市生活需水量的预测
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于多模态信息特征融合的犯罪预测算法研究
蛋白质相互作用预测的集成学习方法研究
基于氨基酸序列协同进化编码的蛋白质热点残基预测
基于多分类器集成及流形学习校准的蛋白质相互作用预测方法研究
基于蛋白质分类和残基定义优化的蛋白质-蛋白质相互作用位点预测