串联质谱技术结合数据库搜索策略鉴定蛋白质,可以满足组学研究高通量、自动化的要求,已成为人类蛋白质组表达谱研究的重要技术路线。数据库搜索策略极大地增强了生物质谱数据的解析效率,但仍然存在着灵敏度不足、准确度较低等诸多瓶颈。不同搜库算法原理的差异使其能获得不尽相同的搜索结果,极具互补性。合理整合多种数据库搜索引擎的结果可以有效提高质谱数据的解析率、增加鉴定肽段数目,同时提高鉴定蛋白质的置信度水平。本项目旨在以随机数据库搜索策略为基础,结合高精度质谱数据的特点,引入统计学模型和机器学习算法建立多种数据库搜索引擎质谱数据分析、质量控制和可靠性评估的标准,将多搜库结果整合转化为候选肽段排序问题,并建立客观的评价体系,在保证数据集置信度的基础上有效整合多种搜索引擎鉴定的肽段,为后续生物学问题研究提供更完备、更可信的肽段和蛋白质列表。
串联质谱技术结合数据库搜索策略鉴定蛋白质,可以满足蛋白质组学研究高通量、自动化的要求,已成为人类蛋白质组表达谱研究的重要技术路线。不同搜库算法原理的差异使其能获得不尽相同的搜索结果,极具互补性。合理整合多种数据库搜索引擎的结果可以有效提高质谱数据的解析率、增加鉴定肽段数目,同时提高鉴定蛋白质的置信度水平。.本项目综合了数学、统计学、质谱信息学等多学科的优势,对蛋白质组质谱数据多种搜索引擎鉴定结果的分析流程、质量控制和整合方法进行了深入研究。目前项目研究期已满,顺利完成了项目的各项研究任务,并取得了一系列成果:建立了Mascot、SEQUEST、X!Tandem、MassMatrix、Comet、Morpheus、MS Amanda和MS-GF+八种搜索引擎的标准分析流程,并实现了特征参数的筛选和自动化提取;发展了高精度质谱数据质量误差校正方法,改进了多种搜索引擎鉴定结果的质量精度和准确性;发展了多种搜索引擎鉴定结果质控和整合的新方法,实现了Mascot、X!Tandem、Comet、MS Amanda、Morpheus和MS-GF+六种搜索引擎的统一质控和结果整合,较单种搜索引擎常规鉴定可以多获得27.56%~158.44%的可靠结果,谱图解析率提高了6.78%~21.72%;建立了串联质谱数据多种数据库搜索引擎搜索、质量控制、结果整合以及可靠性评估的自动化分析软件平台。.基于项目研究成果,研发了质谱数据分析软件PepDistiller、FTDR 2.0和SILVER,已被30多个国家和地区下载500余次,获得了广泛的应用;基于项目成果应用构建的质谱数据资源库ProteomeView和肝脏知识库LiverAtlas,共获得国内外超过91,000次访问;并且,项目发展的高通量蛋白质组质谱数据分析软件平台已成功应用于人类染色体蛋白质组计划、中国人类蛋白质组计划以及人类肝脏蛋白质组数据集整合分析中,至今已完成超过4亿万张谱图的解析。
{{i.achievement_title}}
数据更新时间:2023-05-31
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于反转数据库搜索估算质谱鉴定肽段/蛋白概率新方法
高精度串联质谱数据非限制翻译后修饰鉴定的方法研究
基于串联质谱数据的多肽鉴定半监督学习并行算法研究
基于串联质谱数据的非限制修饰蛋白质数据库搜索鉴定算法研究