Recently, quantitative proteomics which focuses on relative and absolute quantifications based on high-resolution mass spectrometry has become an important aspect in life science researches. The corresponding quantitative algorithms and tools have got great developments which provide a solid support for the subsequent researches including biomarker discovery, differentially expressed protein determination. However, the methods of quantitative proteomics are not mature enough in terms of two aspects. Firstly, the widely different performances of those algorithms and tools result in the variousness of their quantification results. There are no proper objective evaluation standards and horizontal comparisons about the different results. Secondly, accurately absolute quantification of proteins remains a huge challenge for the lack of proper algorithms and strategies for absolute quantification. The researches about quantitative quality control and absolute quantification algorithms are becoming important. This project aims to summarize the reasons about the generation of quantification false positives according to machine learning methods and provide a systematic comparison about the quantification algorithms and software tools, develop novel methods for the "three dimension" (spectrum-peptide-protein) quantification quality control. On the base of new experiment designs about quantitative proteomics, this project also aims to develop novel statistics models to simulate the background noises in the quantification experiments and develop novel absolute quantitative algorithms and novel evaluation strategies about quantitative reliability which could provide the researchers a powerful theoretical basis and optimized combination of experiment design strategies and algorithms.
目前,基于高分辨率质谱的定量蛋白质组学已逐渐成为蛋白质组学研究领域的一个重要方向。相应的定量算法也得到了极大的发展,众多定量软件应运而生,为后续的生物学分析提供了技术支撑。但是,定量蛋白质组学的方法研究还不够成熟,主要表现在两个方面:一是现有的定量算法性能参差不齐,缺少统一的定量可靠性评估方法;二是蛋白质绝对定量方法远未完善,缺少有效的绝对定量方法。因此,蛋白质定量结果的可靠性研究即定量结果的质量控制以及蛋白质绝对定量算法研究越来越受到研究者的重视。针对上述两个问题,本项目将以标准蛋白作为定量内标设计实验并构建定量金标准数据集,结合高分辨率质谱分析平台,分析归纳定量结果中的假阳性和噪声来源,通过机器学习及统计学知识,构建定量结果可靠性的概率模型及相关打分,发展谱图、肽段和蛋白质层面的绝对定量新算法和定量可靠性评估策略,为后续生物学分析提供坚实的理论基础。
系统研究生物体内各项生命活动首先需要精准确定生物体内每个蛋白质的表达丰度以及不同状态下的丰度变化水平。近三十年来生物质谱技术和蛋白质组学技术的快速发展使得上述研究逐渐成为可能。目前,已有不少定量策略和方法广泛应用于定量蛋白质组学的研究中,为差异蛋白质筛选、疾病标志物发现等研究提供了有力的技术支撑。然而,由于肽段的原始质谱信号与实际表达量之间存在偏差,目前研究人员仍然缺少定量可靠性的评估方法以及高准确性、高可重复性的大规模绝对定量算法。..针对上述问题,本项目取得了以下主要研究成果:(1)设计并产出了具有不同样本复杂度的金标准数据集,用于定量可靠性评估以及绝对定量算法性能测试。其中掺入了已知浓度的标准蛋白,并分别用数据依赖采集和数据非依赖采集两种模式产出相应的质谱数据;(2)结合色谱、质谱仪器参数和肽段理化性质等信息对定量数据中的背景噪声进行了建模分析,构建了谱图层面的定量结果可靠性评估指标;(3)提出了肽段定量效率指标的概念,用于衡量肽段原始信号与实际表达量之间的偏差,可作为肽段层面定量可靠性评估指标,并采用机器学习算法构建了肽段定量效率指标的预测模型;(4)发展了基于肽段定量效率指标的蛋白质绝对定量算法LFAQ,并在多个自产和公共数据集上验证了LFAQ具有较高的定量准确性和可重复性;(5)在上述研究基础上发展了谱图、肽段、蛋白质三个层面的定量算法,并开发了综合性定量软件包PANDA。..上述研究成果均紧密围绕本项目最初的研究目标,即发展定量可靠性评估方法及蛋白质绝对定量算法展开,为深入认识蛋白质机器的动态变化规律等研究提供了基础方法学支撑。目前项目负责团队已形成具有自主知识产权的全流程定量蛋白质组学数据分析方法及配套软件,并成功应用于中国人类蛋白质组计划的数据分析中。其中PANDA已被近三十个国家和地区下载200余次,获得了广泛的应用。.
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
转录组与代谢联合解析红花槭叶片中青素苷变化机制
青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化
基于全模式全聚焦方法的裂纹超声成像定量检测
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
蛋白质组中质谱数据无标记定量信息提取算法研究
基于金属标记结合生物质谱的蛋白质组相对和绝对定量新方法研究
基于液相色谱-质谱技术的CYP450酶亚型绝对定量方法研究
基于液相-质谱的MPPZ稳定同位素标记蛋白质组定量方法的建立