The identification of protease substrates and cleavage sites is the key step to understand the physiological role of a protease, which could lead to efficient design of protease inhibitors and play an important role in unraveling the mechanism of protease-substrate interaction. However, experimental identification of protease substrates is often complex, costly and time-consuming. With the ever increasing sequence data, there is an urgent need to develop efficient computational prediction methods to quickly find substrate candidates and putative cleavage sites from primary sequences. In this project, we will apply machine learning and bioinformatics technologies to construct new models for prediction of.protease cleavage sites based on public data, with a focus on two particular families of cysteine proteases: caspase and calpain. The main content includes the following three aspects:.(1) We will construct new data sets of protease cleavage sites based on multiple databases and evaluate the prediction performance of existing approaches and develop an integrated platform for predicting and evaluating..(2) We will construct new models based on scoring functions by incorporating amino acid background distributions and physicochemical properties..(3) We will develop new methods based on machine learning by integrating multiple features, including sequence, structure, evolution information and amino acid conservation scores..This project could provide a practical bioinformatics method for prediction of protease cleavage site and the results will be very helpful to in-depth understanding of the substrate specificity of proteases.
预测蛋白酶裂解位点及底物特异性是正确理解蛋白酶生理功能的关键步骤,也是进一步研发抑制剂的先决条件,对揭示蛋白酶与底物的相互作用机制起重要作用。实验方法测定蛋白酶裂解位点的速度远远落后于蛋白质序列的测定速度,因此迫切需要开发基于序列的计算预测方法。本项目以caspase和calpain两种蛋白酶为研究对象,以现有裂解位点数据为基础,利用机器学习和生物信息学的工具开发蛋白酶裂解位点预测的新算法。主要内容包括:(1)整合多种数据源构建caspase和calpain蛋白酶裂解位点数据集,比较现有算法的预测性能,构建综合预测平台与评价体系;(2)整合氨基酸的物理化学性质和氨基酸替代的背景频率,构建基于打分函数的预测模型;(3)综合提取序列、进化、结构信息和氨基酸保守性打分等特征,构建基于机器学习的预测模型。本项目可以为理解蛋白酶水解机理及底物特异性提供一种切实可行的生物信息学预测方法。
预测蛋白酶裂解位点及底物特异性是正确理解蛋白酶生理功能的关键步骤,也是进一步研发抑制剂的先决条件,对揭示蛋白酶与底物的相互作用机制起重要作用。实验方法测定蛋白酶裂解位点的速度远远落后于蛋白质序列的测定速度,因此迫切需要开发基于序列的计算预测方法。本项目以caspase和calpain两种蛋白酶为研究对象,以现有裂解位点数据为基础,利用机器学习和生物信息学的工具开发蛋白酶裂解位点预测的新算法。主要内容包括:(1)整合多种数据源构建caspase和calpain蛋白酶裂解位点数据集,比较现有算法的预测性能,构建综合预测平台与评价体系;(2)整合氨基酸的物理化学性质和氨基酸替代的背景频率,构建基于打分函数的预测模型;(3)综合提取序列、进化、结构信息和氨基酸保守性打分等特征,构建基于机器学习的预测模型。本项目可以为理解蛋白酶水解机理及底物特异性提供一种切实可行的生物信息学预测方法。此外,由于方法的一般性,可将其适当推广,应用于其它蛋白质/短肽序列及其重要位点的识别问题。本项目已发表SCI论文2篇,培养研究生4名。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
监管的非对称性、盈余管理模式选择与证监会执法效率?
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
基于多源信息融合的蛋白质亚细胞定位预测算法研究
基于多源信息融合的蛋白质功能预测方法研究
基于多源信息融合的蛋白质相互作用预测研究
基于多源跨域信息融合的行人再识别关键算法研究