基于机器学习的定量肽段优选研究

基本信息
批准号:31870828
项目类别:面上项目
资助金额:25.00
负责人:刘万霖
学科分类:
依托单位:北京蛋白质组研究中心
批准年份:2018
结题年份:2020
起止时间:2019-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:郑乃仁,刘琼明,周泉,于子涵,汲淑慧,李先菊
关键词:
定量质谱响应曲线肽段数据库丰度定量算法非标记定量蛋白质组
结项摘要

Mass spectrometry (MS) based quantification is a powerful tool in biological research, featuring high sensitivity and throughput in differential protein determination over a variety of pathologic and physiologic conditions. Peptide extracted ion chromatogram (XIC, MS1) and multiple reaction monitoring (MRM, MS2) modes are commonly employed in quantitative proteomics. The key to successful MS1 and MS2 experiments is the selection of superior peptide/transition responders combining satisfactory MS response intensity and linearity in a wide dynamic range. Several tools and databases have been developed to identify these responders. However, the majority of these tools is based on predictive models derived from a small amount of data and rarely considers the linearity of the response curve, limiting the accuracy and applicability of the quantification strategies. In this project, we will construct a linear peptide judgement and prediction model, based on experimental database of linear MS response curves experiment. Machine learning methods will be adopted. This research will provide a useful model for MS1 and MS2 targeted proteome quantification, rendering quantitative proteomics a more convenient and accurate tool for biological research.

准确的蛋白定量是精确描述生物体物质调控过程的基础。质谱具备高敏感度和高通量的特性,可以对生理或病理条件下蛋白表达量及变化进行高通量检测。在基于一级质谱的离子流色谱峰模式和基于二级质谱碎片离子的多反应监测模式中,通常都利用肽段/碎片的谱峰面积代表蛋白的实际量,因此定量肽段/碎片应具备良好的质谱响应线性、理想的质谱响应强度和线性的动态变化范围。而不同肽段随上样量变化的质谱响应曲线各不相同,因此需要对定量肽段进行筛选。然而,现有工具及数据库通常是基于预测模型,对肽段离子的质谱响应线性不够重视,因此其定量值与蛋白实际量往往存在一定差距。在本项目中, 我们将建立一个线性多肽判断和预测模型,基于实验数据得到的线性质谱响应曲线,结合多种参数,采用机器学习方法,建立线性响应肽段筛选及预测模型。本研究将为定量蛋白质组学提供筛选模型, 从而使基于质谱的蛋白定量更为准确。

项目摘要

准确的蛋白定量是精确描述生物体物质调控过程的基础。质谱具备高敏感度和高通量的特性,可以对生理或病理条件下蛋白表达量及变化进行高通量检测。在基于质谱的离子流色谱峰模式中,通常都利用肽段谱峰面积代表蛋白的实际量,因此定量肽段应具备良好的质谱响应线性、理想的质谱响应强度和线性的动态变化范围。而不同肽段随上样量变化的质谱响应曲线各不相同,因此需要对定量肽段进行筛选。然而,现有工具及数据库通常是基于预测模型,对肽段离子的质谱响应线性不够重视,因此其定量值与蛋白实际量往往存在一定差距。在本项目中,我们通过对近2.5个量级跨度上的一系列等比稀释的样本所进行的测量和计算,建立了肽段的质谱信号和响应曲线,并依照我们发展的相关算法,综合考虑质谱信号强度、线性相关系数、线性相关系数高于阈值的最大子区间以及最低有效检测阈值等参数,测算得到了各肽段的综合定量判断指标。根据每一条肽段的丰度-响应强度曲线,判定肽段的线性响应优劣。确定了优良线性响应肽段的标准,构建了高可信的优选肽段数据集。通过对多种不同的机器学习算法的训练、测试和评估,确定随机森林和神经网络更适用于本项目的研究。我们使用两个不同的数据集分别进行模型的构建和验证,结果证明,神经网络和随机森林模型在同一质谱平台上的准确度可以达到94%以上;跨平台测试中,随机森林的准确度可以达到87%以上。总之,本研究对不同平台的不同数据集进行了跨平台测试,验证了蛋白质组标准蛋白数据机器学习策略的实用性和通用性。证明了我们的方法具有很好的区分度,并且与肽段质谱数据本身包含的理化性质吻合。本研究为定量蛋白质组学提供了线性响应肽段筛选及预测模型,从而使基于质谱的蛋白定量更为准确。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DOI:10.3969/j.issn.1673-1689.2021.10.004
发表时间:2021
3

温和条件下柱前标记-高效液相色谱-质谱法测定枸杞多糖中单糖组成

温和条件下柱前标记-高效液相色谱-质谱法测定枸杞多糖中单糖组成

DOI:10.3724/ SP.J.1123.2019.04013
发表时间:2019
4

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
5

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020

刘万霖的其他基金

相似国自然基金

1

机器学习模型辅助抗菌肽设计

批准号:31870776
批准年份:2018
负责人:蒙海林
学科分类:C0505
资助金额:59.00
项目类别:面上项目
2

基于迁移学习的动态多目标需求优选研究

批准号:61762092
批准年份:2017
负责人:康雁
学科分类:F0203
资助金额:37.00
项目类别:地区科学基金项目
3

基于定量结构图实现软件系统自治功能的机器学习方法

批准号:60873031
批准年份:2008
负责人:邱德红
学科分类:F0202
资助金额:31.00
项目类别:面上项目
4

肽段检测效率预测及其在定量蛋白质组学中的应用

批准号:31171266
批准年份:2011
负责人:谢红卫
学科分类:C0608
资助金额:43.00
项目类别:面上项目