肽碎片离子强度统计建模算法与应用

基本信息

批准号：31500669

项目类别：青年科学基金项目

资助金额：20.00

负责人：王海鹏

学科分类：

依托单位：山东理工大学

批准年份：2015

结题年份：2018

起止时间：2016-01-01 - 2018-12-31

项目状态：已结题

项目参与者：迟浩,方春,高蕾,张荣磊,刘学

关键词：

生物质谱肽鉴定结构化统计学习计算蛋白质组学碎片离子强度

结项摘要

The first principle in mass spectrometry-based proteomics is the fragmentation mechanisms of protonated peptides under certain dissociation conditions. Statistical modeling of peptide fragment ion intensities can bring us a comprehensive understanding of peptide fragmentation mechanisms, which is critically essential to annotation of mass spectral peaks, scoring of peptide-spectrum matches, and prediction of theoretical mass spectra. By transforming the problem of intensity pattern modeling into the problem of sequence tagging, we are able to adopt a supervised structured learning model—conditional random fields—to derive intensity models from large annotated mass spectrometry data sets. This structured model has the ability to incorporate the dependence between neighbouring fragment peaks and the influence of various peptide physio-chemical features, which are not considered by existing peptide fragmentation models. Thus, the above three problems can be solved under this single universal computational framework by applying the forward-backward algorithm, the forward or backward algorithm, and the Viterbi algorithm separately. As a result, the confidence of peak annotation, the quality of peptide-spectrum matches and the accuracy of prediction of theoretical mass spectrum are expected to be remarkably improved. Our ultimate goal is to develop a new generation of software system based on the new algorithms to help researchers interpret their proteomic data more accurately, confidently, and efficiently.

质子化肽在特定裂解条件下的碎裂机理是基于质谱蛋白质组学的“第一性原理”问题。对肽碎片离子强度进行统计建模，可以获得对肽碎裂机理的深刻认识，这对解决实验谱峰标注、肽-谱匹配打分、理论质谱预测三个数据分析基本问题来说至关重要。通过将碎片离子强度建模问题转化为序列标注问题，我们得以利用一个有监督结构化学习模型——条件随机场来从海量标注质谱数据中学习碎片离子强度模型。通过此结构化模型，相邻碎片离子间的依赖关系和各种肽理化特征对强度的影响被纳入进来，这是现有肽碎裂模型所不具备的考量因素。由此，在这个统一的计算框架下，上述三个基本问题可以分别通过前向-后向算法、前向或后向算法、Viterbi算法来一一解决。这个计算框架预期能够显著提高谱峰标注的可信度、肽-谱匹配的品质标准和理论质谱预测的准确度。最终目标是基于新算法开发新一代的数据分析软件系统，以帮助研究者更加精确、可靠、高效地解析蛋白质组数据。

项目摘要

肽碎片离子强度的精确建模，是蛋白质组学研究的基础问题，对于深刻理解肽碎裂机理和深入分析肽谱数据至关重要。随着质谱仪数据产出质量的提升和数据产出速度的提高，来自真实样品和合成序列的标注/非标注数据不断涌现。利用数据驱动的方法对肽碎片离子强度进行建模，并用以变革传统搜索引擎的打分函数，已变得切实可行和日趋紧迫。本项目主要工作包括：研究了大规模高可信肽谱标注数据的获取方法，利用多个搜索引擎肽鉴定结果，在保证与单个引擎相比肽鉴定结果数量相当的前提下，有效降低假发现率；针对肽碎片离子特征的表示和组合，研究了序列特征与理化特征对不同模型的作用，研究了不同特征在特定模型下的重要性程度，发现传统理化特征在不同模型下的贡献度存在显著差异；先后研究了利用梯度提升决策树（GBDT）、深度信念网络（DBN）、序列到序列（Seq2Seq）等模型建模b、y碎片离子强度的方法，发现Seq2Seq模型能获得最好性能，且优于现有代表性方法如MassAnalyzer、OpenMS-Simulator和pDeep；研究了利用序列到序列（Seq2Seq）模型，对ay、by型内部碎片离子强度进行建模的方法，为全谱预测奠定了基础；研究了基于双向LSTM与CRF模型相结合的肽碎片离子强度建模方法，获得了较高的建模精度，有望作为基于强度模型的肽-谱打分的计算框架；联合定量蛋白质组学和表观转录组学，研究了微生物组tRNA上的修饰模式与蛋白质合成之间的联系，并研发了tRNA修饰分析软件工具tRNA-seq-tools。上述研究工作在蛋白质组学和表观转录组学数据分析中具有重要的实际应用价值。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.7606/j.issn.1000-7601.2021.04.29

发表时间：2021

DOI：10.11842/wst.20190724002

发表时间：2020

DOI：10.7538/hhx.2022.yx.2021092

发表时间：2022

DOI：10.13592/j.cnki.ppj.2016.0515

发表时间：2017

DOI：10.13205/j.hjgc.202109007

发表时间：2021

王海鹏的其他基金

批准号：61801262

批准年份：2018

资助金额：23.00

项目类别：青年科学基金项目

批准号：41901106

批准年份：2019

资助金额：26.00

项目类别：青年科学基金项目

批准号：40901201

批准年份：2009

资助金额：18.00

项目类别：青年科学基金项目

批准号：61571132

批准年份：2015

资助金额：57.00

项目类别：面上项目

批准号：51734008

批准年份：2017

资助金额：300.00

项目类别：重点项目

批准号：60803044

批准年份：2008

资助金额：19.00

项目类别：青年科学基金项目

批准号：21206087

批准年份：2012

资助金额：25.00

项目类别：青年科学基金项目

批准号：51474175

批准年份：2014

资助金额：85.00

项目类别：面上项目

批准号：50971103

批准年份：2009

资助金额：40.00

项目类别：面上项目

相似国自然基金

海量时空数据的统计建模：方法与应用

批准号：11871485

批准年份：2018

负责人：黄辉

学科分类：A0403

资助金额：52.00

项目类别：面上项目

图像统计特性的随机场建模与应用

批准号：61271439

批准年份：2012

负责人：钟平

学科分类：F0116

资助金额：70.00

项目类别：面上项目

多元扩展式可靠性建模方法及强度退化统计规律研究

批准号：51175072

批准年份：2011

负责人：谢里阳

学科分类：E0504

资助金额：62.00

项目类别：面上项目

数据流场景下高炉炼铁过程的实时统计建模与算法研究

批准号：61873279

批准年份：2018

负责人：渐令

学科分类：F0303

资助金额：61.00

项目类别：面上项目

肽碎片离子强度统计建模算法与应用

{{i.achievement_title}}

暂无此项成果

其他相关文献

向日葵种质资源苗期抗旱性鉴定及抗旱指标筛选

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

萃取过程中微观到宏观的多尺度超分子组装 --离子液体的特异性功能

播种量和施氮量对不同基因型冬小麦干物质累积、转运及产量的影响

不同pH条件下小球藻氨氮处理及生物质生产能力

王海鹏的其他基金

基于深度学习的穿戴式上肢康复多自由度实时肌电控制FES系统研究

西北干旱区吉力湖摇蚊记录的全新世温度变化研究

基于全极化SAR的台风灾害损失森林和房屋的定量评估系统研究

基于数值散射模拟与机器学习的SAR自动目标识别研究

高温多元合金熔体的物理化学性质及其凝固过程主动控制研究

普适随机资源的适应性管理模型与算法研究

基于同步辐射CT的煤直接液化残渣物理结构可视化表征

电磁悬浮大体积镍基合金快速凝固机理与组织形成控制

亚稳液态多元合金的物理化学性质与微观结构研究

相似国自然基金