基于蛋白质分类和残基定义优化的蛋白质-蛋白质相互作用位点预测

基本信息
批准号:U1404307
项目类别:联合基金项目
资助金额:30.00
负责人:邱智军
学科分类:
依托单位:河南科技大学
批准年份:2014
结题年份:2017
起止时间:2015-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:
关键词:
预测蛋白质分类蛋白质结合位点优化
结项摘要

Protein-protein interaction (PPI) site information has important scientific significance and aplication value, and computational prediction is a feasible approach getting this information. From the point of view of application,the prediction accuracy achieved at present is not sufficient. Studies shows that protein classification and identifying the important residues such as hot spots are advantageous to prediction. In our previous study we have designed an iterative method that can highly improve protein-ligand binding residue prediction. In the iterative procedure the residues with similar features were clustered, at the same time their corresponding proteins were also clustered. The project will use the iterative method to classify interacting proteins, and then for every class, with PPI residue definition scheme as the optimisation variable, random forest algorithm as the objective function,use genetic algorithm to do a prediction-performance-oriented otimisation. It can result in the identification of the residues important to prediction and the best predictor. The project will also use the single-attribute prediction performance to assess the contribution of different attributes to prediction and analyse the statistical significance of protein classification, and evaluate the accuracy of the site information predicted by the predictor in two aspects: prediction accuracy on protein cases and ability of facilitating molecular docking.

蛋白质-蛋白质相互作用(PPI)位点信息具有重要的科学意义和应用价值,计算预测是获得这类信息的可行途径。从应用角度讲,目前的预测准确度尚不能满足需要。研究表明,蛋白质分类和识别象热点那样的重要PPI 残基均有利于预测。申请人前期研究设计了一种迭代方法,调整结合残基定义,能够很大地提高蛋白质-配体结合残基的预测水平;在此迭代过程中聚集特征相似结合残基的同时也对相应的蛋白质进行了聚集。本项目拟采用迭代方法对参与PPI 的蛋白质进行聚类分类,针对每一个类,以PPI 残基定义方案为优化变量,随机森林算法为目标函数,运用遗传算法进行以预测性能为导向的优化计算,识别对预测重要的PPI 残基的同时获得最优的预测器;通过单属性预测性能评价不同属性对预测的贡献,同时利用它分析蛋白质分类结果的统计意义;从针对蛋白质实例的预测准确性和辅助对接能力两个方面评价预测器预测位点信息的准确性。

项目摘要

本项目立足于蛋白质分类思想,重点研究了基于残基定义优化的数据划分对蛋白质-蛋白质结合位点预测的影响。根据原研究计划,本项目首先基于3D complex 数据库,选择家族标准数据集(约3800非冗余蛋白数据),基于随机森林算法使用本项目设计的迭代方法对蛋白质数据集分类,分成三个子集,构建了三个预测器,使用Matthews相关系数 (MCC)作为预测性能评价指标,交叉验证结果表明三个子集的预测情况(分别为0.851、0.730和0.605)要优于分类前(0.357)。这说明蛋白质分类对蛋白质-蛋白质结合位点预测有非常好的积极作用。其次,针对上述方法使用时无法控制各分类子集数据规模以及对独立数据分配合适的预测器,利用最小协方差行列式(Minimum Covariance Determinant,MCD)和马氏距离设计了新方法,MCD进行分类并控制子集规模,马氏距离用于为独立测试数据分配预测器,使用两个独立数据集测试表明分类操作可以提高预测性能,与当前流行方法比较,也能取得相当的性能。再者,由于基于MCD和马氏距离的方法预测效果的取得是以预测数量损失为代价的,所以针对预测器的分配,我们研究了多种距离测度方法,通过控制预测数量损失来评价不同距离测度方法的适用性,研究表明,随机森林算法衍生出的proximity距离在测试中的性能最优。由于proximity距离来源于随机森林分类器构造过程,从而汲取了残基分类中关键的残基描述变量优先级信息,这也提示出基于分类过程来设计距离测度方法是一个很有希望的途径。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
2

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020
3

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
4

氯盐环境下钢筋混凝土梁的黏结试验研究

氯盐环境下钢筋混凝土梁的黏结试验研究

DOI:10.3969/j.issn.1001-8360.2019.08.011
发表时间:2019
5

丙二醛氧化修饰对白鲢肌原纤维蛋白结构性质的影响

丙二醛氧化修饰对白鲢肌原纤维蛋白结构性质的影响

DOI:10.7506/spkx1002-6630-20190411-143
发表时间:2020

邱智军的其他基金

相似国自然基金

1

蛋白质-蛋白质相互作用位点的预测

批准号:10847129
批准年份:2008
负责人:陈颖
学科分类:A25
资助金额:2.00
项目类别:专项基金项目
2

基于优化片段搜索和残基接触预测的全新蛋白质结构从头预测算法设计

批准号:31670723
批准年份:2016
负责人:龚海鹏
学科分类:C0504
资助金额:60.00
项目类别:面上项目
3

蛋白质相互作用及结合位点的预测方法研究

批准号:61402326
批准年份:2014
负责人:郭菲
学科分类:F0213
资助金额:26.00
项目类别:青年科学基金项目
4

基于集成学习的蛋白质相互作用界面热点残基预测方法研究

批准号:31301101
批准年份:2013
负责人:夏俊峰
学科分类:C0608
资助金额:18.00
项目类别:青年科学基金项目