非平衡分类模式下的蛋白质翻译后修饰位点预测方法研究

基本信息
批准号:61761023
项目类别:地区科学基金项目
资助金额:37.00
负责人:贾建华
学科分类:
依托单位:景德镇陶瓷大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:王普,李玲,刘思敏,周凤麟,王燕红,李慧文,张柳霞
关键词:
蛋白质序列分析非平衡分类翻译后修饰位点预测
结项摘要

Research on the structure, function and localization information of protein has become a hot-spot in biology information field. Prediction of proteins Post Translational Modification(PTM) sites is important to pharmacology.The protential target of drug and the reason of some diseases can be detected via identification of proteins PTM sites. But it is high cost, long span and even hard to some current technology for biological and chemical experiment approaches.However, with the development of information technology and bioinformatics, there is an alternative approach to this problem by machine learning. The prediction of PTM sites is a typical classification of imbalanced dataset. The project overcomes the shortcoming that the imbalanced distribution of dataset is not considered in the most existing algorithms and applies ensemble learning and cost sensitive learning,combining with the imbalanced re-sample technique,feature selection strategy and optimization for balance,to construct the prediction model via incorporating physicochemical properties and statistical features of protein sequences.It is possible to further improve the prediction accuracy via the approach.The proposed model will be significant for computer-aided drug discovery to some extent.

研究蛋白质功能、结构和定位信息已经成为生物信息学的一个研究热点,其中蛋白质翻译后修饰位点预测对于药理学具有重大意义,通过预测修饰位点找到疾病的根源,可以为药物设计提供依据。但是通过生物和化学实验的方法确定结合位点除了受本身的技术限制之外,往往成本较高,且费时费力,机器学习领域和生物信息学的飞速发展为研究翻译后修饰提供了新的方向。蛋白质翻译后修饰位点预测问题是一个典型的非平衡数据集分类问题。本项目克服现存大多数预测算法没有考虑数据集非平衡分布的实际情况,利用集成学习和代价敏感等方法,深入研究非平衡采样技巧、特征选择策略和数据集平衡优化算法,融合蛋白质序列的物理化学特性和统计特征,构建蛋白质翻译后修饰位点预测模型,以其进一步提高模型预测精度。此概念模型对于计算机辅助药物设计具有一定的指导意义。

项目摘要

本项目经过四年的研究,建立了的反映氨基酸物理化学特性以及位置特性的数字编码模型,将蛋白质序列转换为数字序列,建立了多个蛋白质交互和翻译后修饰位点预测模型,包括:(1)建立了一个基于混沌游戏图表示的蛋白质特征提取算法,充分考虑了氨基酸排列位置对蛋白质特性的影响,考虑了氨基酸之间的顺序和耦合性质,对伪氨基酸成分进行了一个改进,此改进对蛋白质交互预测的成功率有所提高。(2)提出了一种基于集成学习和随机标记的非平衡分类方法,算法对负样本进行类别的随机标记,将数据集分成多类平衡分布的数据集,利用多分类预测器来进行训练得到多类平衡模式下的预测结果,再将预测结果映射回原来的标记空间,得到最终的预测结果,巧妙地将非平衡分类问题转化为平衡分类问题。对多次随机标记的结果进行集成,得到了一个集成框架下的预测结果。(3)提出了一种新的基于Stack集成的蛋白质翻译后修饰位点预测方法,实验证明,所提方法和目前很多已经发表的方法相比,预测准确率有了很大的提高。所提出的预测算法可被用于药物设计、蛋白质功能和结构预测和系统生物学等研究中,极大减少了生物学家的工作量。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
4

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
5

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016

贾建华的其他基金

批准号:21301197
批准年份:2013
资助金额:25.00
项目类别:青年科学基金项目
批准号:81701757
批准年份:2017
资助金额:20.00
项目类别:青年科学基金项目
批准号:21771198
批准年份:2017
资助金额:64.00
项目类别:面上项目
批准号:61261027
批准年份:2012
资助金额:45.00
项目类别:地区科学基金项目
批准号:70041023
批准年份:2000
资助金额:5.00
项目类别:专项基金项目
批准号:70141028
批准年份:2001
资助金额:7.00
项目类别:专项基金项目

相似国自然基金

1

基于深度学习方法预测蛋白质翻译后修饰位点

批准号:61762034
批准年份:2017
负责人:龙海侠
学科分类:F0213
资助金额:34.00
项目类别:地区科学基金项目
2

基于多标签学习的蛋白质翻译后修饰位点预测

批准号:11671032
批准年份:2016
负责人:徐岩
学科分类:A0405
资助金额:48.00
项目类别:面上项目
3

基于机器学习的蛋白质翻译后修饰位点预测的研究

批准号:11301024
批准年份:2013
负责人:徐岩
学科分类:A0405
资助金额:22.00
项目类别:青年科学基金项目
4

Tau蛋白翻译后修饰位点预测与修饰机制研究

批准号:21175064
批准年份:2011
负责人:邱建丁
学科分类:B0310
资助金额:68.00
项目类别:面上项目