基于多组学先验信息的串联质谱数据库搜索方法研究及应用

基本信息

批准号：31600667

项目类别：青年科学基金项目

资助金额：20.00

负责人：谢尚潜

学科分类：

依托单位：海南大学

批准年份：2016

结题年份：2019

起止时间：2017-01-01 - 2019-12-31

项目状态：已结题

项目参与者：于倩,栾奕昭,陈凯宁,陈聪颖,彭凯

关键词：

串联质谱先验信息FPKM多组学数据库搜索蛋白质鉴定

结项摘要

Protein identification of tandem mass spectrometry (MS) data is an important content of proteomics, and database search algorithm (DSA) is the main method of MS data analysis. Researchers have tried for a long time to improve the identified peptide numbers of samples by digging into MS characteristic information, however integration of multi-omics information to improve the protein identification is rarely reported. Gene transcription and translation is the precondition of biological protein expression, so the abundance information of the transcriptomics and translatomics (multi-omics) can be used as prior information for protein expression. At present, some studies have confirmed that using multi-omics prior information constraint protein-searching database in DSA can increase the identified peptide numbers. Nevertheless, incorporating the multi-omics prior abundance information into the the scoring model remains to be further researched. This project intends to quantify the abundance information of multi-omics into the corresponding protein existing probability, and incorporates above probability and MS characteristic scoring algorithm to establish a new scoring model of DSA. Eventually this new scoring model will be applied to proteomics analysis of lung cancer. The new algorithm this project proposes can effectively increase the utilization of MS characteristic information and improve the identified peptide number of samples, and providing a new method for reference and technical support for proteomic study.

串联质谱数据的蛋白鉴定是蛋白质组学研究的重要内容，数据库搜索方法是蛋白质质谱数据分析的主要方法。研究者长期通过挖掘图谱本身特征信息来提高肽段鉴定量，而融合多组学信息提高蛋白质鉴定量的报道相对较少。生物蛋白质表达需要经历基因转录和翻译过程，因此转录组和翻译组（多组学）的丰度信息可作为蛋白表达的先验信息加以利用。目前有研究证实利用多组学先验信息在数据库搜索方法中约束蛋白搜索库能提高肽段鉴定量，然而将多组学先验信息融入数据库搜索方法的打分模型还有待进一步研究。本项目拟将多组学丰度信息定量化为相应的蛋白存在概率，整合蛋白存在概率和基于图谱特征的打分算法构建新肽段打分模型，从而建立一种在打分模型中融入多组学先验信息的数据库搜索方法，并将该方法应用于肺癌蛋白质组学分析。新方法能有效增加实验串联质谱数据的信息利用率和提高蛋白质样品的肽段鉴定量，为蛋白质组学研究提供方法参考和技术支持。

项目摘要

基因的转录和翻译与蛋白质表达息息相关，是实验图谱鉴定到蛋白质的重要前提和先决条件，人们长期通过挖掘图谱本身特征信息来提高肽段鉴定量，而融合多组学信息提高蛋白质鉴定量的报道相对较少。目前有研究证实利用多组学先验信息在数据库搜索方法中约束蛋白搜索库能提高肽段鉴定量，而将多组学先验信息融入数据库搜索方法的打分模型还有待进一步研究。本项目建立了翻译组和转录组丰度FPKM与蛋白鉴定的定量化模型，将转录组和翻译组丰度信息转化为相应的蛋白质存在先验概率；其次针对反库蛋白肽段无转录组和翻译组FPKM先验信息问题，建立了反库蛋白肽段的先验丰度FPKM的蛋白鉴定能力估算方法；再次结合正反库肽段对应的FPKM先验信息的蛋白鉴定能力，建立一种融入多组学FPKM先验信息的数据库搜索打分模型，通过新模型的得分获得可靠肽段。最后将新方法与Mascot、OMSSA、X!Tandem和pFind等主流蛋白鉴定软件进行比较，结果显示新方法具有更好的鉴定效果，在肽段和蛋白鉴定量上显著提高，融入转录组和翻译组先验信息的新方法在肽段上分别提高了3.39%-9.79%和10%-12%。本项目建立的整合多组学先验信息的数据库搜索方法能有效提高质谱数据的信息利用率和蛋白质样品的肽段鉴定量，为质谱数据分析提供重要的计算方法参考，为蛋白质组学的研究提供了新的研究思路和方法策略，尤其对基于多组学信息的蛋白质学研究具有重要的参考价值。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.7606/j.issn.1000-7601.2021.04.29

发表时间：2021

DOI：

发表时间：

DOI：10.11842/wst.20190724002

发表时间：2020

DOI：10.19328/j.cnki.2096-8655.2022.02.002

发表时间：2022

DOI：10.13609/j.cnki.1000-0313.2022.04.019

发表时间：2022

谢尚潜的其他基金

批准号：31760316

批准年份：2017

资助金额：35.00

项目类别：地区科学基金项目

相似国自然基金

基于数据非依赖性串联质谱技术的肾癌多组学研究

批准号：21605076

批准年份：2016

负责人：林琳

学科分类：B0403

资助金额：20.00

项目类别：青年科学基金项目

基于串联质谱数据的非限制修饰蛋白质数据库搜索鉴定算法研究

批准号：61100021

批准年份：2011

负责人：于长永

学科分类：F0202

资助金额：23.00

项目类别：青年科学基金项目

基于反转数据库搜索估算质谱鉴定肽段/蛋白概率新方法

批准号：20605028

批准年份：2006

负责人：吴松锋

学科分类：B0403

资助金额：17.00

项目类别：青年科学基金项目

串联质谱数据多种搜索引擎鉴定肽段整合方法的研究

批准号：21105121

批准年份：2011

负责人：马洁

学科分类：B0403

资助金额：24.00

项目类别：青年科学基金项目

基于多组学先验信息的串联质谱数据库搜索方法研究及应用

{{i.achievement_title}}

暂无此项成果

其他相关文献

向日葵种质资源苗期抗旱性鉴定及抗旱指标筛选

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

"多对多"模式下GEO卫星在轨加注任务规划

结直肠癌免疫治疗的多模态影像及分子影像评估

谢尚潜的其他基金

基于三代测序全长转录组的特异性Isoform识别方法研究及特征分析

相似国自然基金