基于多组学先验信息的串联质谱数据库搜索方法研究及应用

基本信息
批准号:31600667
项目类别:青年科学基金项目
资助金额:20.00
负责人:谢尚潜
学科分类:
依托单位:海南大学
批准年份:2016
结题年份:2019
起止时间:2017-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:于倩,栾奕昭,陈凯宁,陈聪颖,彭凯
关键词:
串联质谱先验信息FPKM多组学数据库搜索蛋白质鉴定
结项摘要

Protein identification of tandem mass spectrometry (MS) data is an important content of proteomics, and database search algorithm (DSA) is the main method of MS data analysis. Researchers have tried for a long time to improve the identified peptide numbers of samples by digging into MS characteristic information, however integration of multi-omics information to improve the protein identification is rarely reported. Gene transcription and translation is the precondition of biological protein expression, so the abundance information of the transcriptomics and translatomics (multi-omics) can be used as prior information for protein expression. At present, some studies have confirmed that using multi-omics prior information constraint protein-searching database in DSA can increase the identified peptide numbers. Nevertheless, incorporating the multi-omics prior abundance information into the the scoring model remains to be further researched. This project intends to quantify the abundance information of multi-omics into the corresponding protein existing probability, and incorporates above probability and MS characteristic scoring algorithm to establish a new scoring model of DSA. Eventually this new scoring model will be applied to proteomics analysis of lung cancer. The new algorithm this project proposes can effectively increase the utilization of MS characteristic information and improve the identified peptide number of samples, and providing a new method for reference and technical support for proteomic study.

串联质谱数据的蛋白鉴定是蛋白质组学研究的重要内容,数据库搜索方法是蛋白质质谱数据分析的主要方法。研究者长期通过挖掘图谱本身特征信息来提高肽段鉴定量,而融合多组学信息提高蛋白质鉴定量的报道相对较少。生物蛋白质表达需要经历基因转录和翻译过程,因此转录组和翻译组(多组学)的丰度信息可作为蛋白表达的先验信息加以利用。目前有研究证实利用多组学先验信息在数据库搜索方法中约束蛋白搜索库能提高肽段鉴定量,然而将多组学先验信息融入数据库搜索方法的打分模型还有待进一步研究。本项目拟将多组学丰度信息定量化为相应的蛋白存在概率,整合蛋白存在概率和基于图谱特征的打分算法构建新肽段打分模型,从而建立一种在打分模型中融入多组学先验信息的数据库搜索方法,并将该方法应用于肺癌蛋白质组学分析。新方法能有效增加实验串联质谱数据的信息利用率和提高蛋白质样品的肽段鉴定量,为蛋白质组学研究提供方法参考和技术支持。

项目摘要

基因的转录和翻译与蛋白质表达息息相关,是实验图谱鉴定到蛋白质的重要前提和先决条件,人们长期通过挖掘图谱本身特征信息来提高肽段鉴定量,而融合多组学信息提高蛋白质鉴定量的报道相对较少。目前有研究证实利用多组学先验信息在数据库搜索方法中约束蛋白搜索库能提高肽段鉴定量,而将多组学先验信息融入数据库搜索方法的打分模型还有待进一步研究。本项目建立了翻译组和转录组丰度FPKM与蛋白鉴定的定量化模型,将转录组和翻译组丰度信息转化为相应的蛋白质存在先验概率;其次针对反库蛋白肽段无转录组和翻译组FPKM先验信息问题,建立了反库蛋白肽段的先验丰度FPKM的蛋白鉴定能力估算方法;再次结合正反库肽段对应的FPKM先验信息的蛋白鉴定能力,建立一种融入多组学FPKM先验信息的数据库搜索打分模型,通过新模型的得分获得可靠肽段。最后将新方法与Mascot、OMSSA、X!Tandem和pFind等主流蛋白鉴定软件进行比较,结果显示新方法具有更好的鉴定效果,在肽段和蛋白鉴定量上显著提高,融入转录组和翻译组先验信息的新方法在肽段上分别提高了3.39%-9.79%和10%-12%。本项目建立的整合多组学先验信息的数据库搜索方法能有效提高质谱数据的信息利用率和蛋白质样品的肽段鉴定量,为质谱数据分析提供重要的计算方法参考,为蛋白质组学的研究提供了新的研究思路和方法策略,尤其对基于多组学信息的蛋白质学研究具有重要的参考价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DOI:10.3969/j.issn.1673-1689.2021.10.004
发表时间:2021
3

青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化

青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化

DOI:10.3799/dqkx.2020.083
发表时间:2020
4

基于分形维数和支持向量机的串联电弧故障诊断方法

基于分形维数和支持向量机的串联电弧故障诊断方法

DOI:
发表时间:2016
5

双吸离心泵压力脉动特性数值模拟及试验研究

双吸离心泵压力脉动特性数值模拟及试验研究

DOI:10.13465/j.cnki.jvs.2020.19.016
发表时间:2020

谢尚潜的其他基金

相似国自然基金

1

基于数据非依赖性串联质谱技术的肾癌多组学研究

批准号:21605076
批准年份:2016
负责人:林琳
学科分类:B0403
资助金额:20.00
项目类别:青年科学基金项目
2

基于串联质谱数据的非限制修饰蛋白质数据库搜索鉴定算法研究

批准号:61100021
批准年份:2011
负责人:于长永
学科分类:F0202
资助金额:23.00
项目类别:青年科学基金项目
3

基于反转数据库搜索估算质谱鉴定肽段/蛋白概率新方法

批准号:20605028
批准年份:2006
负责人:吴松锋
学科分类:B0403
资助金额:17.00
项目类别:青年科学基金项目
4

串联质谱数据多种搜索引擎鉴定肽段整合方法的研究

批准号:21105121
批准年份:2011
负责人:马洁
学科分类:B0403
资助金额:24.00
项目类别:青年科学基金项目