Research on the structure, function and localization information of protein has become a hot-spot in biology information field. Prediction of proteins Post Translational Modification(PTM) sites is important to pharmacology.The protential target of drug and the reason of some diseases can be detected via identification of proteins PTM sites. But it is high cost, long span and even hard to some current technology for biological and chemical experiment approaches.However, with the development of information technology and bioinformatics, there is an alternative approach to this problem by machine learning. The prediction of PTM sites is a typical classification of imbalanced dataset. The project overcomes the shortcoming that the imbalanced distribution of dataset is not considered in the most existing algorithms and applies ensemble learning and cost sensitive learning,combining with the imbalanced re-sample technique,feature selection strategy and optimization for balance,to construct the prediction model via incorporating physicochemical properties and statistical features of protein sequences.It is possible to further improve the prediction accuracy via the approach.The proposed model will be significant for computer-aided drug discovery to some extent.
研究蛋白质功能、结构和定位信息已经成为生物信息学的一个研究热点,其中蛋白质翻译后修饰位点预测对于药理学具有重大意义,通过预测修饰位点找到疾病的根源,可以为药物设计提供依据。但是通过生物和化学实验的方法确定结合位点除了受本身的技术限制之外,往往成本较高,且费时费力,机器学习领域和生物信息学的飞速发展为研究翻译后修饰提供了新的方向。蛋白质翻译后修饰位点预测问题是一个典型的非平衡数据集分类问题。本项目克服现存大多数预测算法没有考虑数据集非平衡分布的实际情况,利用集成学习和代价敏感等方法,深入研究非平衡采样技巧、特征选择策略和数据集平衡优化算法,融合蛋白质序列的物理化学特性和统计特征,构建蛋白质翻译后修饰位点预测模型,以其进一步提高模型预测精度。此概念模型对于计算机辅助药物设计具有一定的指导意义。
本项目经过四年的研究,建立了的反映氨基酸物理化学特性以及位置特性的数字编码模型,将蛋白质序列转换为数字序列,建立了多个蛋白质交互和翻译后修饰位点预测模型,包括:(1)建立了一个基于混沌游戏图表示的蛋白质特征提取算法,充分考虑了氨基酸排列位置对蛋白质特性的影响,考虑了氨基酸之间的顺序和耦合性质,对伪氨基酸成分进行了一个改进,此改进对蛋白质交互预测的成功率有所提高。(2)提出了一种基于集成学习和随机标记的非平衡分类方法,算法对负样本进行类别的随机标记,将数据集分成多类平衡分布的数据集,利用多分类预测器来进行训练得到多类平衡模式下的预测结果,再将预测结果映射回原来的标记空间,得到最终的预测结果,巧妙地将非平衡分类问题转化为平衡分类问题。对多次随机标记的结果进行集成,得到了一个集成框架下的预测结果。(3)提出了一种新的基于Stack集成的蛋白质翻译后修饰位点预测方法,实验证明,所提方法和目前很多已经发表的方法相比,预测准确率有了很大的提高。所提出的预测算法可被用于药物设计、蛋白质功能和结构预测和系统生物学等研究中,极大减少了生物学家的工作量。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于铁路客流分配的旅客列车开行方案调整方法
多能耦合三相不平衡主动配电网与输电网交互随机模糊潮流方法
基于LS-SVM香梨可溶性糖的近红外光谱快速检测
奥希替尼治疗非小细胞肺癌患者的耐药机制研究进展
基于文献计量学和社会网络分析的国内高血压病中医学术团队研究
基于深度学习方法预测蛋白质翻译后修饰位点
基于多标签学习的蛋白质翻译后修饰位点预测
基于机器学习的蛋白质翻译后修饰位点预测的研究
Tau蛋白翻译后修饰位点预测与修饰机制研究