蛋白质组学质谱数据的深度学习分析技术

基本信息
批准号:11874310
项目类别:面上项目
资助金额:64.00
负责人:帅建伟
学科分类:
依托单位:厦门大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:李翔,吴宇宁,尹智勇,何情祖,王抒伟,徐富献
关键词:
蛋白质质谱技术蛋白组学深度学习
结项摘要

With the rapid development of mass spectrometry, massive data of mass spectrometry on proteomics have been obtained in a short period of time, and the analysis of these big data has become an important challenge. In this project, the deep learning technology is introduced for the first time to analyze the data independent acquisition SWATH MS data (MS1/MS2). The deep learning network can extract automatically the internal structural information of high-dimensional MS data with more effective feature classification, to discover more peptides and proteins. We will train and compare four different types of deep network auto-encoders (including variational, noise-reduction, sparse and adversarial auto-encoders). For each auto-encoder, we will apply optimization algorithms such as the adaptive moment estimation to train and determine the optimized deep learning network model, and then choose the best automatic encoder as the deep learning mass spectrometry analysis model. Furthermore, combined with the latest Spark framework for big data, a software platform of deep learning analysis for DIA-SWATH mass spectrometry on proteomic peptide identification will be constructed for international scientists to use. The deep learning MS technology will enhance the capabilities of mass spectrometry data analysis on proteomics, and promote the wide application of proteomics in biological research and disease treatment.

随着质谱检测技术的飞速发展,人们已经能在短时间内得到海量的蛋白质组学质谱数据,对蛋白质组学质谱大数据的分析成为一个重要的挑战问题。本项目针对数据不依赖采集的SWATH串联质谱(MS1/MS2)大数据,首次引入深度学习技术,自动挖掘高维质谱数据的内部结构信息,进行更有效的特征分类处理,更好地识别肽段和蛋白。我们将训练并比较4种不同的深度网络自动编码器(包括变分,降噪,稀疏和对抗变分自动编码器),对每种编码器,运用自适应矩估计优化算法等,确定出优化的深度学习网络模型,然后从中选出效果最好的自动编码器作为深度学习质谱识别模型。进一步结合最新的Spark大数据框架,建立一个基于深度学习的质谱肽段识别软件平台,供国际同行应用。该深度学习质谱技术将提高和促进蛋白组学质谱数据的分析处理能力,推动蛋白组学在生命探索和疾病治疗中的广泛深入应用。

项目摘要

本项目研究主要是针对细胞基因-蛋白质组学,特别是基于蛋白质质谱大数据,利用深度学习技术强大的分类识别能力,开发各种人工智能和深度学习算法,自动挖掘高维质谱数据的内部结构信息,进行更有效的分类处理,更好地识别肽段和蛋白。本项目按照2018年提交的本项目计划书的研究工作安排,已经很好完成研究任务,在本基金支持下,共发表文章65篇。主要成果包括:我们应用深度学习方法分析数据不依赖获取的蛋白质质谱数据,提出了一种非目标分析方法,Dear-DIA,用于直接分析DIA数据,结果表明,对于不同仪器平台获得的不同物种高度复杂的DIA数据,Dear-DIA具有较好的处理效果,我们相信,Dear-DIA是一款先进的软件,可用于处理各种高度复杂的DIA数据。我们还提出了一个OpenSWATH量化的蛋白质质谱肽前体的深度学习分类工具;基于联合图形自编码器预测了lncRNA和蛋白质相互作用关系;阐明了生物体中蛋白质鸟嘌呤晶体的自组装机制以及结构功能关系;讨论了细胞焦亡与凋亡蛋白质信号网络交叉调控动力学机制;提出了一个基于人工智能的单细胞多模态组学分析框架。基金支持期间,培养一位博士后出站,4位博士毕业,12位硕士毕业。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DOI:10.3969/j.issn.1673-1689.2021.10.004
发表时间:2021
3

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
4

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

DOI:
发表时间:2020
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

帅建伟的其他基金

批准号:31370830
批准年份:2013
资助金额:75.00
项目类别:面上项目
批准号:11675134
批准年份:2016
资助金额:58.00
项目类别:面上项目
批准号:30970970
批准年份:2009
资助金额:30.00
项目类别:面上项目
批准号:10775114
批准年份:2007
资助金额:30.00
项目类别:面上项目

相似国自然基金

1

基于质谱的硒蛋白质组学研究

批准号:31500665
批准年份:2015
负责人:张耀阳
学科分类:C2103
资助金额:20.00
项目类别:青年科学基金项目
2

基于深度学习的质谱库高速搜索技术研究

批准号:61872004
批准年份:2018
负责人:章军
学科分类:F0213
资助金额:63.00
项目类别:面上项目
3

逆流色谱-质谱联用技术研发及其在膜蛋白质组学中的应用

批准号:30570466
批准年份:2005
负责人:杨福全
学科分类:C1005
资助金额:30.00
项目类别:面上项目
4

基于质谱的金属抗肿瘤药物细胞蛋白质组学研究

批准号:21605146
批准年份:2016
负责人:林煜
学科分类:B0403
资助金额:20.00
项目类别:青年科学基金项目