Research on the structure, function and localization information of protein has become a hot-spot in biology information field. Prediction of proteins Post Translational Modification(PTM) sites is important to pharmacology.The protential target of drug and the reason of some diseases can be detected via identification of proteins PTM sites. But it is high cost, long span and even hard to some current technology for biological and chemical experiment approaches.However, with the development of information technology and bioinformatics, there is an alternative approach to this problem by machine learning. The prediction of PTM sites is a typical classification of imbalanced dataset. The project overcomes the shortcoming that the imbalanced distribution of dataset is not considered in the most existing algorithms and applies ensemble learning and cost sensitive learning,combining with the imbalanced re-sample technique,feature selection strategy and optimization for balance,to construct the prediction model via incorporating physicochemical properties and statistical features of protein sequences.It is possible to further improve the prediction accuracy via the approach.The proposed model will be significant for computer-aided drug discovery to some extent.
研究蛋白质功能、结构和定位信息已经成为生物信息学的一个研究热点,其中蛋白质翻译后修饰位点预测对于药理学具有重大意义,通过预测修饰位点找到疾病的根源,可以为药物设计提供依据。但是通过生物和化学实验的方法确定结合位点除了受本身的技术限制之外,往往成本较高,且费时费力,机器学习领域和生物信息学的飞速发展为研究翻译后修饰提供了新的方向。蛋白质翻译后修饰位点预测问题是一个典型的非平衡数据集分类问题。本项目克服现存大多数预测算法没有考虑数据集非平衡分布的实际情况,利用集成学习和代价敏感等方法,深入研究非平衡采样技巧、特征选择策略和数据集平衡优化算法,融合蛋白质序列的物理化学特性和统计特征,构建蛋白质翻译后修饰位点预测模型,以其进一步提高模型预测精度。此概念模型对于计算机辅助药物设计具有一定的指导意义。
本项目经过四年的研究,建立了的反映氨基酸物理化学特性以及位置特性的数字编码模型,将蛋白质序列转换为数字序列,建立了多个蛋白质交互和翻译后修饰位点预测模型,包括:(1)建立了一个基于混沌游戏图表示的蛋白质特征提取算法,充分考虑了氨基酸排列位置对蛋白质特性的影响,考虑了氨基酸之间的顺序和耦合性质,对伪氨基酸成分进行了一个改进,此改进对蛋白质交互预测的成功率有所提高。(2)提出了一种基于集成学习和随机标记的非平衡分类方法,算法对负样本进行类别的随机标记,将数据集分成多类平衡分布的数据集,利用多分类预测器来进行训练得到多类平衡模式下的预测结果,再将预测结果映射回原来的标记空间,得到最终的预测结果,巧妙地将非平衡分类问题转化为平衡分类问题。对多次随机标记的结果进行集成,得到了一个集成框架下的预测结果。(3)提出了一种新的基于Stack集成的蛋白质翻译后修饰位点预测方法,实验证明,所提方法和目前很多已经发表的方法相比,预测准确率有了很大的提高。所提出的预测算法可被用于药物设计、蛋白质功能和结构预测和系统生物学等研究中,极大减少了生物学家的工作量。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于LASSO-SVMR模型城市生活需水量的预测
基于SSVEP 直接脑控机器人方向和速度研究
基于深度学习方法预测蛋白质翻译后修饰位点
基于多标签学习的蛋白质翻译后修饰位点预测
基于机器学习的蛋白质翻译后修饰位点预测的研究
Tau蛋白翻译后修饰位点预测与修饰机制研究