肽碎片离子强度统计建模算法与应用

基本信息
批准号:31500669
项目类别:青年科学基金项目
资助金额:20.00
负责人:王海鹏
学科分类:
依托单位:山东理工大学
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:迟浩,方春,高蕾,张荣磊,刘学
关键词:
生物质谱肽鉴定结构化统计学习计算蛋白质组学碎片离子强度
结项摘要

The first principle in mass spectrometry-based proteomics is the fragmentation mechanisms of protonated peptides under certain dissociation conditions. Statistical modeling of peptide fragment ion intensities can bring us a comprehensive understanding of peptide fragmentation mechanisms, which is critically essential to annotation of mass spectral peaks, scoring of peptide-spectrum matches, and prediction of theoretical mass spectra. By transforming the problem of intensity pattern modeling into the problem of sequence tagging, we are able to adopt a supervised structured learning model—conditional random fields—to derive intensity models from large annotated mass spectrometry data sets. This structured model has the ability to incorporate the dependence between neighbouring fragment peaks and the influence of various peptide physio-chemical features, which are not considered by existing peptide fragmentation models. Thus, the above three problems can be solved under this single universal computational framework by applying the forward-backward algorithm, the forward or backward algorithm, and the Viterbi algorithm separately. As a result, the confidence of peak annotation, the quality of peptide-spectrum matches and the accuracy of prediction of theoretical mass spectrum are expected to be remarkably improved. Our ultimate goal is to develop a new generation of software system based on the new algorithms to help researchers interpret their proteomic data more accurately, confidently, and efficiently.

质子化肽在特定裂解条件下的碎裂机理是基于质谱蛋白质组学的“第一性原理”问题。对肽碎片离子强度进行统计建模,可以获得对肽碎裂机理的深刻认识,这对解决实验谱峰标注、肽-谱匹配打分、理论质谱预测三个数据分析基本问题来说至关重要。通过将碎片离子强度建模问题转化为序列标注问题,我们得以利用一个有监督结构化学习模型——条件随机场来从海量标注质谱数据中学习碎片离子强度模型。通过此结构化模型,相邻碎片离子间的依赖关系和各种肽理化特征对强度的影响被纳入进来,这是现有肽碎裂模型所不具备的考量因素。由此,在这个统一的计算框架下,上述三个基本问题可以分别通过前向-后向算法、前向或后向算法、Viterbi算法来一一解决。这个计算框架预期能够显著提高谱峰标注的可信度、肽-谱匹配的品质标准和理论质谱预测的准确度。最终目标是基于新算法开发新一代的数据分析软件系统,以帮助研究者更加精确、可靠、高效地解析蛋白质组数据。

项目摘要

肽碎片离子强度的精确建模,是蛋白质组学研究的基础问题,对于深刻理解肽碎裂机理和深入分析肽谱数据至关重要。随着质谱仪数据产出质量的提升和数据产出速度的提高,来自真实样品和合成序列的标注/非标注数据不断涌现。利用数据驱动的方法对肽碎片离子强度进行建模,并用以变革传统搜索引擎的打分函数,已变得切实可行和日趋紧迫。本项目主要工作包括:研究了大规模高可信肽谱标注数据的获取方法,利用多个搜索引擎肽鉴定结果,在保证与单个引擎相比肽鉴定结果数量相当的前提下,有效降低假发现率;针对肽碎片离子特征的表示和组合,研究了序列特征与理化特征对不同模型的作用,研究了不同特征在特定模型下的重要性程度,发现传统理化特征在不同模型下的贡献度存在显著差异;先后研究了利用梯度提升决策树(GBDT)、深度信念网络(DBN)、序列到序列(Seq2Seq)等模型建模b、y碎片离子强度的方法,发现Seq2Seq模型能获得最好性能,且优于现有代表性方法如MassAnalyzer、OpenMS-Simulator和pDeep;研究了利用序列到序列(Seq2Seq)模型,对ay、by型内部碎片离子强度进行建模的方法,为全谱预测奠定了基础;研究了基于双向LSTM与CRF模型相结合的肽碎片离子强度建模方法,获得了较高的建模精度,有望作为基于强度模型的肽-谱打分的计算框架;联合定量蛋白质组学和表观转录组学,研究了微生物组tRNA上的修饰模式与蛋白质合成之间的联系,并研发了tRNA修饰分析软件工具tRNA-seq-tools。上述研究工作在蛋白质组学和表观转录组学数据分析中具有重要的实际应用价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

转录组与代谢联合解析红花槭叶片中青素苷变化机制

转录组与代谢联合解析红花槭叶片中青素苷变化机制

DOI:
发表时间:
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化

青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化

DOI:10.3799/dqkx.2020.083
发表时间:2020
5

双吸离心泵压力脉动特性数值模拟及试验研究

双吸离心泵压力脉动特性数值模拟及试验研究

DOI:10.13465/j.cnki.jvs.2020.19.016
发表时间:2020

王海鹏的其他基金

批准号:61801262
批准年份:2018
资助金额:23.00
项目类别:青年科学基金项目
批准号:41901106
批准年份:2019
资助金额:26.00
项目类别:青年科学基金项目
批准号:40901201
批准年份:2009
资助金额:18.00
项目类别:青年科学基金项目
批准号:61571132
批准年份:2015
资助金额:57.00
项目类别:面上项目
批准号:51734008
批准年份:2017
资助金额:300.00
项目类别:重点项目
批准号:60803044
批准年份:2008
资助金额:19.00
项目类别:青年科学基金项目
批准号:21206087
批准年份:2012
资助金额:25.00
项目类别:青年科学基金项目
批准号:51474175
批准年份:2014
资助金额:85.00
项目类别:面上项目
批准号:50971103
批准年份:2009
资助金额:40.00
项目类别:面上项目

相似国自然基金

1

海量时空数据的统计建模:方法与应用

批准号:11871485
批准年份:2018
负责人:黄辉
学科分类:A0403
资助金额:52.00
项目类别:面上项目
2

图像统计特性的随机场建模与应用

批准号:61271439
批准年份:2012
负责人:钟平
学科分类:F0116
资助金额:70.00
项目类别:面上项目
3

多元扩展式可靠性建模方法及强度退化统计规律研究

批准号:51175072
批准年份:2011
负责人:谢里阳
学科分类:E0504
资助金额:62.00
项目类别:面上项目
4

数据流场景下高炉炼铁过程的实时统计建模与算法研究

批准号:61873279
批准年份:2018
负责人:渐令
学科分类:F0303
资助金额:61.00
项目类别:面上项目