The first principle in mass spectrometry-based proteomics is the fragmentation mechanisms of protonated peptides under certain dissociation conditions. Statistical modeling of peptide fragment ion intensities can bring us a comprehensive understanding of peptide fragmentation mechanisms, which is critically essential to annotation of mass spectral peaks, scoring of peptide-spectrum matches, and prediction of theoretical mass spectra. By transforming the problem of intensity pattern modeling into the problem of sequence tagging, we are able to adopt a supervised structured learning model—conditional random fields—to derive intensity models from large annotated mass spectrometry data sets. This structured model has the ability to incorporate the dependence between neighbouring fragment peaks and the influence of various peptide physio-chemical features, which are not considered by existing peptide fragmentation models. Thus, the above three problems can be solved under this single universal computational framework by applying the forward-backward algorithm, the forward or backward algorithm, and the Viterbi algorithm separately. As a result, the confidence of peak annotation, the quality of peptide-spectrum matches and the accuracy of prediction of theoretical mass spectrum are expected to be remarkably improved. Our ultimate goal is to develop a new generation of software system based on the new algorithms to help researchers interpret their proteomic data more accurately, confidently, and efficiently.
质子化肽在特定裂解条件下的碎裂机理是基于质谱蛋白质组学的“第一性原理”问题。对肽碎片离子强度进行统计建模,可以获得对肽碎裂机理的深刻认识,这对解决实验谱峰标注、肽-谱匹配打分、理论质谱预测三个数据分析基本问题来说至关重要。通过将碎片离子强度建模问题转化为序列标注问题,我们得以利用一个有监督结构化学习模型——条件随机场来从海量标注质谱数据中学习碎片离子强度模型。通过此结构化模型,相邻碎片离子间的依赖关系和各种肽理化特征对强度的影响被纳入进来,这是现有肽碎裂模型所不具备的考量因素。由此,在这个统一的计算框架下,上述三个基本问题可以分别通过前向-后向算法、前向或后向算法、Viterbi算法来一一解决。这个计算框架预期能够显著提高谱峰标注的可信度、肽-谱匹配的品质标准和理论质谱预测的准确度。最终目标是基于新算法开发新一代的数据分析软件系统,以帮助研究者更加精确、可靠、高效地解析蛋白质组数据。
肽碎片离子强度的精确建模,是蛋白质组学研究的基础问题,对于深刻理解肽碎裂机理和深入分析肽谱数据至关重要。随着质谱仪数据产出质量的提升和数据产出速度的提高,来自真实样品和合成序列的标注/非标注数据不断涌现。利用数据驱动的方法对肽碎片离子强度进行建模,并用以变革传统搜索引擎的打分函数,已变得切实可行和日趋紧迫。本项目主要工作包括:研究了大规模高可信肽谱标注数据的获取方法,利用多个搜索引擎肽鉴定结果,在保证与单个引擎相比肽鉴定结果数量相当的前提下,有效降低假发现率;针对肽碎片离子特征的表示和组合,研究了序列特征与理化特征对不同模型的作用,研究了不同特征在特定模型下的重要性程度,发现传统理化特征在不同模型下的贡献度存在显著差异;先后研究了利用梯度提升决策树(GBDT)、深度信念网络(DBN)、序列到序列(Seq2Seq)等模型建模b、y碎片离子强度的方法,发现Seq2Seq模型能获得最好性能,且优于现有代表性方法如MassAnalyzer、OpenMS-Simulator和pDeep;研究了利用序列到序列(Seq2Seq)模型,对ay、by型内部碎片离子强度进行建模的方法,为全谱预测奠定了基础;研究了基于双向LSTM与CRF模型相结合的肽碎片离子强度建模方法,获得了较高的建模精度,有望作为基于强度模型的肽-谱打分的计算框架;联合定量蛋白质组学和表观转录组学,研究了微生物组tRNA上的修饰模式与蛋白质合成之间的联系,并研发了tRNA修饰分析软件工具tRNA-seq-tools。上述研究工作在蛋白质组学和表观转录组学数据分析中具有重要的实际应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
转录组与代谢联合解析红花槭叶片中青素苷变化机制
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化
双吸离心泵压力脉动特性数值模拟及试验研究
海量时空数据的统计建模:方法与应用
图像统计特性的随机场建模与应用
多元扩展式可靠性建模方法及强度退化统计规律研究
数据流场景下高炉炼铁过程的实时统计建模与算法研究