基于集成学习的蛋白质相互作用界面热点残基预测方法研究

基本信息
批准号:31301101
项目类别:青年科学基金项目
资助金额:18.00
负责人:夏俊峰
学科分类:
依托单位:安徽大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:寻丽娜,卫敏,曹莉莉,叶芬,武欢,侯义福
关键词:
数据库元学习分类器特征表示旋转森林热点残基预测
结项摘要

Hot spots are residues contributing the most of the binding free energy in protein-protein interaction yet accounting for a small portion of interface residues. These residues are observed to be crucial for maintaining the stability of protein association. Experimental hot spots detection methods are not applicable on a large scale since they are time consuming and expensive. Therefore, reliable and efficient computational methods for identifying hot spots are greatly desired and urgently required. In this project,we will first perform a comprehensive survey of previous hot spot databases,including the verified data extracted from peer-reviewed published literature,and develop a continually updated database that collects, curates and manages hot spots data. Second,we will extract a wide variety of features from a combination of protein sequence and structure information and apply feature selection to remove noisy and irrelevant features,with the purpose of reducing the computational complexity and improving the classification accuracy. Finally,we will employ the ensemble classifier approaches,including the rotation forest and meta learning predictor, to identify hot spots. The genetic algorithm will also be used to tune various parameters to further improve the prediction accuracy of hot spots. The implementation of this project will not only provide valuable insight into the principles governing protein-protein interaction,but also help to narrow down the search space for drug design.

热点残基是蛋白质相互作用界面上贡献绝大部分结合自由能的极少数关键氨基酸残基,对蛋白质结合的稳定性起着关键的作用。但是通过生物实验技术检测热点残基费时费力且代价昂贵,利用计算方法预测热点残基则可以有效弥补这一不足。本项目将从蛋白质序列和结构特征出发,在热点残基的数据整合、特征编码和分类模型构建等方面进行深入研究。首先,通过整合各种热点残基数据源,并结合文献检索提取的热点残基数据,建立一个完整的热点残基数据库;然后从蛋白质的氨基酸序列和空间结构出发,提取多种与热点残基可能相关的特征并利用特征选择方法,去除其中的噪声和不相关的特征以降低计算复杂度和提高分类精度;最后应用旋转森林和元学习分类器这两种集成算法来预测蛋白质相互作用界面热点残基,并结合遗传算法优化参数,从而最终建立高可靠性的热点残基预测模型。本项目的研究将为我们理解蛋白质相互作用机制和治疗相关疾病的药物设计提供理论上的依据。

项目摘要

热点残基是蛋白质相互作用界面上贡献绝大部分结合自由能的极少数关键氨基酸残基,对蛋白质结合的稳定性起着关键的作用。但是通过生物实验技术检测热点残基费时费力且代价昂贵,利用计算方法预测热点残基则可以有效弥补这一不足。围绕着蛋白质相互作用界面热点残基预测这一重要问题,本项目从相互作用热点残基数据源、特征编码方式以及分类模型三个层面开展研究。在热点残基数据库构建方面,首先基于文献数据分析技术比较2007年至2014年所有基于机器学习预测热点残基文献中的训练集,然后在此基础上构建了蛋白质相互作用热点残基数据库;在热点残基特征编码方式研究方面,本项目收集整理了已有的一些特征,在此基础上提出了一些新的特征编码方式,最终构建得到 4大类(理化特征、结构特征、微环境特征以及其他特征),总共108个热点残基特征;在分类模型构建方面,提出基于两步特征选择法和支持向量机的热点残基预测方法,基于加权特征描述符和集成学习策略的蛋白质相互作用位点预测方法,以及基于动态集成学习系统的蛋白质-配基相互作用热点残基预测方法。本项目所取得的研究成果将为我们理解蛋白质相互作用机制和治疗相关疾病的药物设计提供一些理论上的依据。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

路基土水分传感器室内标定方法与影响因素分析

路基土水分传感器室内标定方法与影响因素分析

DOI:10.14188/j.1671-8844.2019-03-007
发表时间:2019
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
4

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015
5

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018

夏俊峰的其他基金

批准号:61672037
批准年份:2016
资助金额:65.00
项目类别:面上项目

相似国自然基金

1

蛋白质相互作用预测的集成学习方法研究

批准号:61300128
批准年份:2013
负责人:曹智
学科分类:F0214
资助金额:25.00
项目类别:青年科学基金项目
2

基于氨基酸序列协同进化编码的蛋白质热点残基预测

批准号:61300058
批准年份:2013
负责人:陈鹏
学科分类:F0213
资助金额:27.00
项目类别:青年科学基金项目
3

基于多分类器集成及流形学习校准的蛋白质相互作用预测方法研究

批准号:31071168
批准年份:2010
负责人:黄德双
学科分类:C0608
资助金额:35.00
项目类别:面上项目
4

基于蛋白质分类和残基定义优化的蛋白质-蛋白质相互作用位点预测

批准号:U1404307
批准年份:2014
负责人:邱智军
学科分类:C0504
资助金额:30.00
项目类别:联合基金项目