非平衡分类模式下的蛋白质翻译后修饰位点预测方法研究

基本信息

批准号：61761023

项目类别：地区科学基金项目

资助金额：37.00

负责人：贾建华

学科分类：

依托单位：景德镇陶瓷大学

批准年份：2017

结题年份：2021

起止时间：2018-01-01 - 2021-12-31

项目状态：已结题

项目参与者：王普,李玲,刘思敏,周凤麟,王燕红,李慧文,张柳霞

关键词：

蛋白质序列分析非平衡分类翻译后修饰位点预测

结项摘要

Research on the structure, function and localization information of protein has become a hot-spot in biology information field. Prediction of proteins Post Translational Modification(PTM) sites is important to pharmacology.The protential target of drug and the reason of some diseases can be detected via identification of proteins PTM sites. But it is high cost, long span and even hard to some current technology for biological and chemical experiment approaches.However, with the development of information technology and bioinformatics, there is an alternative approach to this problem by machine learning. The prediction of PTM sites is a typical classification of imbalanced dataset. The project overcomes the shortcoming that the imbalanced distribution of dataset is not considered in the most existing algorithms and applies ensemble learning and cost sensitive learning,combining with the imbalanced re-sample technique,feature selection strategy and optimization for balance,to construct the prediction model via incorporating physicochemical properties and statistical features of protein sequences.It is possible to further improve the prediction accuracy via the approach.The proposed model will be significant for computer-aided drug discovery to some extent.

研究蛋白质功能、结构和定位信息已经成为生物信息学的一个研究热点，其中蛋白质翻译后修饰位点预测对于药理学具有重大意义，通过预测修饰位点找到疾病的根源，可以为药物设计提供依据。但是通过生物和化学实验的方法确定结合位点除了受本身的技术限制之外，往往成本较高，且费时费力，机器学习领域和生物信息学的飞速发展为研究翻译后修饰提供了新的方向。蛋白质翻译后修饰位点预测问题是一个典型的非平衡数据集分类问题。本项目克服现存大多数预测算法没有考虑数据集非平衡分布的实际情况，利用集成学习和代价敏感等方法，深入研究非平衡采样技巧、特征选择策略和数据集平衡优化算法，融合蛋白质序列的物理化学特性和统计特征，构建蛋白质翻译后修饰位点预测模型，以其进一步提高模型预测精度。此概念模型对于计算机辅助药物设计具有一定的指导意义。

项目摘要

本项目经过四年的研究，建立了的反映氨基酸物理化学特性以及位置特性的数字编码模型，将蛋白质序列转换为数字序列，建立了多个蛋白质交互和翻译后修饰位点预测模型，包括：（1）建立了一个基于混沌游戏图表示的蛋白质特征提取算法，充分考虑了氨基酸排列位置对蛋白质特性的影响，考虑了氨基酸之间的顺序和耦合性质，对伪氨基酸成分进行了一个改进，此改进对蛋白质交互预测的成功率有所提高。（2）提出了一种基于集成学习和随机标记的非平衡分类方法，算法对负样本进行类别的随机标记，将数据集分成多类平衡分布的数据集，利用多分类预测器来进行训练得到多类平衡模式下的预测结果，再将预测结果映射回原来的标记空间，得到最终的预测结果，巧妙地将非平衡分类问题转化为平衡分类问题。对多次随机标记的结果进行集成，得到了一个集成框架下的预测结果。（3）提出了一种新的基于Stack集成的蛋白质翻译后修饰位点预测方法，实验证明，所提方法和目前很多已经发表的方法相比，预测准确率有了很大的提高。所提出的预测算法可被用于药物设计、蛋白质功能和结构预测和系统生物学等研究中，极大减少了生物学家的工作量。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2021

DOI：10.13334/j.0258-8013.pcsee.190276

发表时间：2020

DOI：

发表时间：

DOI：

发表时间：2020

DOI：10.11842/wst.20190724002

发表时间：2020

贾建华的其他基金

批准号：21301197

批准年份：2013

资助金额：25.00

项目类别：青年科学基金项目

批准号：81701757

批准年份：2017

资助金额：20.00

项目类别：青年科学基金项目

批准号：21771198

批准年份：2017

资助金额：64.00

项目类别：面上项目

批准号：61261027

批准年份：2012

资助金额：45.00

项目类别：地区科学基金项目

批准号：70041023

批准年份：2000

资助金额：5.00

项目类别：专项基金项目

批准号：70141028

批准年份：2001

资助金额：7.00

项目类别：专项基金项目

相似国自然基金

基于深度学习方法预测蛋白质翻译后修饰位点

批准号：61762034

批准年份：2017

负责人：龙海侠

学科分类：F0213

资助金额：34.00

项目类别：地区科学基金项目

基于多标签学习的蛋白质翻译后修饰位点预测

批准号：11671032

批准年份：2016

负责人：徐岩

学科分类：A0405

资助金额：48.00

项目类别：面上项目

基于机器学习的蛋白质翻译后修饰位点预测的研究

批准号：11301024

批准年份：2013

负责人：徐岩

学科分类：A0405

资助金额：22.00

项目类别：青年科学基金项目

Tau蛋白翻译后修饰位点预测与修饰机制研究

批准号：21175064

批准年份：2011

负责人：邱建丁

学科分类：B0310

资助金额：68.00

项目类别：面上项目

非平衡分类模式下的蛋白质翻译后修饰位点预测方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于铁路客流分配的旅客列车开行方案调整方法

多能耦合三相不平衡主动配电网与输电网交互随机模糊潮流方法

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

奥希替尼治疗非小细胞肺癌患者的耐药机制研究进展

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

贾建华的其他基金

磁-光双功能稀土配合物的设计合成及磁-光关系的研究

用于CAA早期诊断的18F标记的有机小分子探针研究

利用Au(I)/Ag(I)发色团或Pd(II)/Pt(II)分子笼构建高性能稀土单分子磁体

集成学习框架下的蛋白质-蛋白质结合位点预测方法研究

面对世界经济全球化的对策研究

对“入世“后中国企业环境变化的研究

相似国自然基金