Quantity control of the identification results in proteomics is a critical issue. 15N and 13C metabolic labeling could facilitate the validation of the results. For one MS/MS spectrum, the numbers of nitrogen and carbon atoms of the correct and incorrect identified peptide are different, thus the mass distance between unlabeled (light) and 15N- or 13C labeled (heavy) peptides are different. The existent of light and heavy isotope peaks provide additional power for discriminating the confidence peptides. This confidence score is calculated from multiple features, such as ratio and similarity of isotope patterns. Support vector machine is used to detect the false positive results, getting more precision false discovery rate (FDR) for the results. Based on the above algorithms, a novel software pValidate is developed and used to evaluate the results of protein search engine and other special identification results, such as modified peptides, cross-linking peptides, glycopeptides, and intact proteins. This research improve the quantity control of the identification results in proteomics, and promote the precision proteomics.
随着蛋白质组学的发展,蛋白质定性结果质控不够精准的问题日益突出。本项目拟通过引入15N和13C代谢标记来提升质控水平。对于一张二级谱图,正确鉴定的肽段含N元素或C元素数目与错误肽段的不同,从而导致正确和错误肽段在一级谱图上轻、重同位素峰簇质量差不同。可以根据鉴定结果是否可以在一级谱图上找到相应的实际轻、重信号来判断鉴定结果的可信度。该可信度计算自多种特征,如比值、同位素相似度等。拟使用以支持向量机为核心的统计机器学习模型,发现假阳结果个例,并对鉴定结果集合计算更精准的假发现率(FDR)。开发配套的数据解析软件pValidate,并应用于评测各常规蛋白质搜索引擎结果,评测修饰肽段、交联肽段甚至完整糖肽和整体蛋白质的定性分析结果。该研究可以提升现有的蛋白质组学定性结果质控水平,为精准蛋白质组学提供思路。
对蛋白质进行定性分析是蛋白质组学研究的基础内容,而对定性结果进行质控是必不可少的关键环节。现在领域内常用的质控方法是目标诱饵法,但该方法只能估计全部鉴定结果的假发现率,不能对单个鉴定结果进行可信度确认,不能对小规模的鉴定结果进行质控分析,不能应用在特定肽段定性结果质控中。.针对该问题,项目完成人发展了基于15N和13C代谢标记技术的肽段定性结果正确性评估方法:可以根据一级谱图轻重母离子的质量差,推算N或C元素的数目,进而实现对某单个鉴定结果的可信度分析,在原理上证明了15N和13C代谢标记验证鉴定结果正误的可行性;在此基础上,发展了以深度神经网络为基础的肽段轻、重信号匹配算法,实现了对鉴定结果子集可信度的评价;建立了一套普适的质控体系,扩展到了多种蛋白质鉴定应用中,并取得了多项重要结果、关键数据并具有较大科学意义,具体包括:.1. 本项目团队开发的pFind与其他6个领域内常用蛋白质搜索引擎各自报告了鉴定结果,质控方法为目标诱饵法,假发现率均为1%。pFind能鉴定非特异酶切肽段和1000多种修饰,其结果能覆盖其他引擎结果的90%左右,并且还能多鉴定到超过50%的肽段。仅靠目标诱饵法无法证明pFind结果的可信度。利用本项目开发13C和15N代谢标记方法分析得出pFind单独鉴定到的肽段错误率在0.1%到1%区间,而其他引擎单独鉴定到的肽段错误率在10%左右。这直接证明了pFind发现的重要修饰和潜在生物标志物的可信性,为高灵敏的精准医疗打下基础。该工作发表在Nature Biotechnology。.2. 本项目团队开发的pLink与领域内另外一个交联鉴定引擎Kojak各自报告了鉴定结果,质控方法为目标诱饵法,假发现率均为1%。pLink2鉴定结果比Kojak多一倍,仅靠目标诱饵法无法证明pLink结果的可信度。利用本项目开发13C和15N代谢标记方法分析得出pLink单独鉴定到的结果错误率在0.5%左右,Kojak单独鉴定的结果10%左右。这直接证明了pLink鉴定交联肽段的可信性,为蛋白质相互作用及蛋白质空间结构研究打下基础。该工作发表在Nature Communications。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
温和条件下柱前标记-高效液相色谱-质谱法测定枸杞多糖中单糖组成
转录组与代谢联合解析红花槭叶片中青素苷变化机制
基于多模态信息特征融合的犯罪预测算法研究
组合应用基于1H NMR的代谢组学和13C标记底物的13C NMR方法研究糖尿病脑病的代谢机制
基于代谢组学的中药质量控制方法研究
基于质量亏损的准等重标记定量蛋白质组学新方法研究
基于蛋白质组学技术的哈蟆油鉴别和质量评价研究