Malonylation is an important and new-found protein post-translation modifications, it plays a key role in glucolipid metabolism and be closely related to type 2 diabetes, while the internal mechanism is not clear. The experimental method of systematic study on malonylation mainly through specific enrichment combining with mass spectrum method. Although experimental method has a high accuracy in identifying malonylation sites, the limitations (e.g. long cycle, high cost and only can identify high abundance peptides) of experimental method have hinder the research progress on exploring its biological function and molecular mechanism. In this project, we will develop powerful bioinformatics method to detect the malonylation sites, and make an association study between malonylation and metabolic disease by integrating the SNPs data, aiming at exploring the regulatory mechanism of malonylation. At first, we will build a high confidence dataset by searching literatures and get its sequence features according to sequence analysis. Then we will build the malonylation sites predictor by using powerful machine learning algorithm with the sequence features. The performance of our method will be assessed through cross-validation, independent test and the experimental method. At last, an association study between malonylation and type 2 diabetes will be carried out by integrating the SNPs data. This study will be significant in understanding the biological function of malonylation and the physiological and pathological characteristics of metabolic disease, and will help to find new treatments for metabolic disease.
丙二酰化是新发现的一种重要的蛋白质翻译后修饰机制,其在糖脂代谢中起关键作用且与2型糖尿病密切相关。丙二酰化修饰的系统研究主要通过特异性富集结合质谱等实验方法,虽然修饰位点鉴定精度高,但实验方法的局限性(周期长、费用高、只能鉴定高丰度肽段)阻碍了其研究进展。本项目拟开发生物信息学算法对丙二酰化位点进行预测,并进行实验验证。此外,研究单核苷酸多态性对丙二酰化的影响和与代谢疾病的关联,探索其调控机制。首先,通过文献搜索的方法建立起高可信度的数据集,通过序列分析,明确其序列特征;然后采用机器学习算法整合特征建立预测模型,通过交叉检验和独立测试等方法测试算法的性能,并通过实验方法对预测得到的修饰位点进行验证;最后应用该算法,结合数据库中的SNP数据开展与2型糖尿病等代谢疾病的关联分析。项目的实施对于了解丙二酰化的功能以及代谢疾病的生理病理有着重要意义,有助于为代谢疾病找到新型治疗手段。
本项目我们围绕蛋白质丙二酰化修饰,开发了一系列针对蛋白质翻译后修饰和RNA转录后修饰进行预测的算法和工具。首先,我们开发了一个名为iFeature的工具,用来对蛋白质序列进行特征提取。iFeature能够提取53种蛋白质序列特征和和预测得到的结构特征。接着,我们开发了一个可以对蛋白质丙二酰化进行预测的工具LEMP,并建立了一个在线服务器提供服务。LEMP采用逻辑回归算法整合了两种不同类型的模型(基于随机森林算法的模型和基于深度学习算法的模型),显著的提高了算法的预测性能。在LEMP的基础上,我们进一步开发了一个名为MUscADEL的预测模型,MUscADEL采用双向长短记忆模型循环神经元网络,能够对发生在赖氨酸上的八种蛋白质翻译后修饰进行准确预测。在iFeature的基础上,我们进一步开发了一个名为iLearn的工具,iLearn集成了多种功能包括特征提取、聚类、特征筛选、标准化、降维、模型构建、最优模型筛选、集成学习和数据可视化。iLearn能够对蛋白质和核酸序列提取97种描述符。在RNA转录后修饰预测方面,我们首先开发了一个名为BERMP的工具,BERMP能够对拟南芥、酵母、小鼠和人等多个物种的m6A修饰位点进行预测,并建立了一个在线服务器提供服务。我们还开发了一个名为DeepPromise的工具,用于对m1A和m6A修饰位点进行预测,DeepPromise采用卷积神经元网络,整合三种不同的编码类型,能够对m1A和m6A修饰位点进行准确的预测。通过对卷积层的分析,筛选出一些列潜在的存在于修饰周围的motif。此外,我们还开发了一个用于对蛋白质巴豆酰化修饰进行预测的工具和对蛋白质2-Hydroxyisobutyrylation修饰进行预测的工具。本课题为基于机器学习算法的生物序列分析开发了一系列工具和算法,并且都提供了相应的在线服务器提供服务,促进了基于机器学习的生物序列分析的研究进展。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于一维TiO2纳米管阵列薄膜的β伏特效应研究
论大数据环境对情报学发展的影响
氟化铵对CoMoS /ZrO_2催化4-甲基酚加氢脱氧性能的影响
基于LASSO-SVMR模型城市生活需水量的预测
基于SSVEP 直接脑控机器人方向和速度研究
蛋白质丙二酰化修饰调控肿瘤细胞糖酵解的机制研究
丙二酰化修饰调节2型糖尿病代谢通路关键蛋白的研究
蛋白质翻译后修饰位点物种特异性预测的特征抽取和学习算法研究
基于多标签学习的蛋白质翻译后修饰位点预测