基于集成学习的蛋白质相互作用界面热点残基预测方法研究

基本信息

批准号：31301101

项目类别：青年科学基金项目

资助金额：18.00

负责人：夏俊峰

学科分类：

依托单位：安徽大学

批准年份：2013

结题年份：2016

起止时间：2014-01-01 - 2016-12-31

项目状态：已结题

项目参与者：寻丽娜,卫敏,曹莉莉,叶芬,武欢,侯义福

关键词：

数据库元学习分类器特征表示旋转森林热点残基预测

结项摘要

Hot spots are residues contributing the most of the binding free energy in protein-protein interaction yet accounting for a small portion of interface residues. These residues are observed to be crucial for maintaining the stability of protein association. Experimental hot spots detection methods are not applicable on a large scale since they are time consuming and expensive. Therefore, reliable and efficient computational methods for identifying hot spots are greatly desired and urgently required. In this project,we will first perform a comprehensive survey of previous hot spot databases,including the verified data extracted from peer-reviewed published literature,and develop a continually updated database that collects, curates and manages hot spots data. Second,we will extract a wide variety of features from a combination of protein sequence and structure information and apply feature selection to remove noisy and irrelevant features,with the purpose of reducing the computational complexity and improving the classification accuracy. Finally,we will employ the ensemble classifier approaches,including the rotation forest and meta learning predictor, to identify hot spots. The genetic algorithm will also be used to tune various parameters to further improve the prediction accuracy of hot spots. The implementation of this project will not only provide valuable insight into the principles governing protein-protein interaction,but also help to narrow down the search space for drug design.

热点残基是蛋白质相互作用界面上贡献绝大部分结合自由能的极少数关键氨基酸残基，对蛋白质结合的稳定性起着关键的作用。但是通过生物实验技术检测热点残基费时费力且代价昂贵，利用计算方法预测热点残基则可以有效弥补这一不足。本项目将从蛋白质序列和结构特征出发，在热点残基的数据整合、特征编码和分类模型构建等方面进行深入研究。首先，通过整合各种热点残基数据源，并结合文献检索提取的热点残基数据，建立一个完整的热点残基数据库；然后从蛋白质的氨基酸序列和空间结构出发，提取多种与热点残基可能相关的特征并利用特征选择方法，去除其中的噪声和不相关的特征以降低计算复杂度和提高分类精度；最后应用旋转森林和元学习分类器这两种集成算法来预测蛋白质相互作用界面热点残基，并结合遗传算法优化参数，从而最终建立高可靠性的热点残基预测模型。本项目的研究将为我们理解蛋白质相互作用机制和治疗相关疾病的药物设计提供理论上的依据。

项目摘要

热点残基是蛋白质相互作用界面上贡献绝大部分结合自由能的极少数关键氨基酸残基，对蛋白质结合的稳定性起着关键的作用。但是通过生物实验技术检测热点残基费时费力且代价昂贵，利用计算方法预测热点残基则可以有效弥补这一不足。围绕着蛋白质相互作用界面热点残基预测这一重要问题，本项目从相互作用热点残基数据源、特征编码方式以及分类模型三个层面开展研究。在热点残基数据库构建方面，首先基于文献数据分析技术比较2007年至2014年所有基于机器学习预测热点残基文献中的训练集，然后在此基础上构建了蛋白质相互作用热点残基数据库；在热点残基特征编码方式研究方面，本项目收集整理了已有的一些特征，在此基础上提出了一些新的特征编码方式，最终构建得到 4大类(理化特征、结构特征、微环境特征以及其他特征)，总共108个热点残基特征；在分类模型构建方面，提出基于两步特征选择法和支持向量机的热点残基预测方法，基于加权特征描述符和集成学习策略的蛋白质相互作用位点预测方法，以及基于动态集成学习系统的蛋白质-配基相互作用热点残基预测方法。本项目所取得的研究成果将为我们理解蛋白质相互作用机制和治疗相关疾病的药物设计提供一些理论上的依据。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.13336/j.1003-6520.hve.20200528028

发表时间：2021

DOI：10.3788/CJL201946.0801003

发表时间：2019

DOI：10.7641/CTA.2018.70969

发表时间：2018

DOI：10.1360/SSM-2020-0035

发表时间：2020

DOI：10.3969/j.issn.1004-132X.2020.03.001

发表时间：2020

夏俊峰的其他基金

批准号：61672037

批准年份：2016

资助金额：65.00

项目类别：面上项目

相似国自然基金

蛋白质相互作用预测的集成学习方法研究

批准号：61300128

批准年份：2013

负责人：曹智

学科分类：F0214

资助金额：25.00

项目类别：青年科学基金项目

基于氨基酸序列协同进化编码的蛋白质热点残基预测

批准号：61300058

批准年份：2013

负责人：陈鹏

学科分类：F0213

资助金额：27.00

项目类别：青年科学基金项目

基于多分类器集成及流形学习校准的蛋白质相互作用预测方法研究

批准号：31071168

批准年份：2010

负责人：黄德双

学科分类：C0608

资助金额：35.00

项目类别：面上项目

基于蛋白质分类和残基定义优化的蛋白质-蛋白质相互作用位点预测

批准号：U1404307

批准年份：2014

负责人：邱智军

学科分类：C0504

资助金额：30.00

项目类别：联合基金项目

基于集成学习的蛋白质相互作用界面热点残基预测方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

带有滑动摩擦摆支座的500 kV变压器地震响应

基于腔内级联变频的0.63μm波段多波长激光器

具有随机多跳时变时延的多航天器协同编队姿态一致性

现代优化理论与应用

机电控制无级变速器执行机构动态响应特性仿真研究

夏俊峰的其他基金

癌症驱动突变的生物信息学分析和实验验证

相似国自然基金