大规模高分辨质谱数据挖掘新方法研究

基本信息
批准号:21305163
项目类别:青年科学基金项目
资助金额:25.00
负责人:张志敏
学科分类:
依托单位:中南大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:范伟,云永欢,任达兵,郑宜报,詹德坚,蒋伟,艾芳芳,陈晨,欧阳梅兰
关键词:
高分辩质谱化学计量学数据挖掘高性能计算
结项摘要

High-resolution mass spectra(HRMS) plays an important role in structure elucidation. However, the mining of discriminant markers from large-scale GC-MS or LC-MS dataset and the identification of them via HRMS are still difficult for most researchers. Presently the markers are often discovered by manual preprocessing and pattern recognition, then identified by searching MS libraries. This procedure is time-consuming and subjective, and the spectra in MS libraries are limited. So some novel methods for preprocessing, pattern recognition and identification are needed urgently. In this project, we will implement baseline-fittig, peak detection, automatic deconvolution and alignment methods to construct 2D matrix for pattern recognition and corresponding HRMS for structure elucidation based on high performance computing techniques. Then random forests or sparse linear discriminant analysis will be employed to discover the influential markers effectively. For the markers not including in the MS libraries, accurate m/z values, mass spectra calibration, isotopic abundance, PubChem database, retention index and in silico fragmentation will be adopted for molecular formula and structure identification. This study can provide a novel and systemic platform for analyzing and mining HRMS dataset of complex system, which is meaningful to several research areas such as metabolomics, food safety, active compounds of herbal medicine and etc.

高分辨质谱在结构鉴定中起着非常重要的作用,但是从大规模的气质或液质数据中通过预处理和模式识别挖掘出有判别能力的标记物,然后利用高分辨质谱对其鉴定仍是复杂体系分析的关键和难点之一。目前主要采用预处理方法与模式识别,鉴定则依赖于库检索。目前预处理方法耗时且主观性大以及谱库覆盖范围有限,因此需要新的预处理、模式识别与鉴定等方法。本项目在高性能计算平台支撑下,实现高分辨质谱自动基线校正、峰检测、多元分辨和校准等方法,可快速从联用数据中挖掘用于模式识别的二维矩阵;采用随机森林和稀疏线性判别分析等方法识别出标记物;对无法用质谱库进行鉴定的标记物,通过高分辨质谱精确质量、质谱校准、同位素丰度、PubChem数据库、保留指数以及理论裂解规律等方法进行定性分析。项目成功实施将为复杂体系高分辩质谱数据提供更好分析与挖掘方法,对目前几个研究热点,如代谢组学、食品安全、天然药物活性成分等领域有很强的现实意义。

项目摘要

高分辨质谱在复杂体系分析中起着非常重要的作用,但是从大规模的高分辨质谱数据中通过预处理和模式识别挖掘出有判别能力的标记物,然后利用高分辨质谱对其鉴定仍是复杂体系分析的关键和难点之一,大规模高分辨质谱数据挖掘仍非常具有挑战性。因此需要开发新型化学计量学算法准确高效地从大规模原始联用质谱数据中挖掘出有意义的信息。本项目首先搭建可存储及分析太字节(Terabyte)数据的硬件平台,包括30TB存储空间的网络存储服务器及12TFLOPS单精度浮点计算能力的多路GPU计算节点,并针对联用质谱数据中的纯离子色谱峰提取、基线校正、峰检测、峰校准以及高分辨质谱定性等问题进行了系统性的研究或探讨,提出了K-均值纯离子色谱提取方法(K-means clustering Pure Ion Chromatogram, KPIC)、自动双边指数基线校正算法(Automatic Two-side Exponential Baseline correction algorithm,ATEB)、小波空间多尺度峰值检测(Multiscale Peak Detection, MSPD)、递归小波空间峰检测算法(Recursive Wavelet Peak Detection,RWPD)、移动窗口快速傅立叶交叉相关(Moving Window Fast Fourier Transfrom cross-correlation, MWFFT)、提出质谱辅助信号分辨技术(MS-Assisted Resolution of Signals,MARS)以及新型并行分子式生成器(Parallel Formula Generator, PFG)。所提出的化学计量学方法成功用于化工园区的挥发性有机化合物(Volatile Organic Compounds, VOCs)在线源解析以及男性不育代谢组学诊断研究。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于一维TiO2纳米管阵列薄膜的β伏特效应研究

基于一维TiO2纳米管阵列薄膜的β伏特效应研究

DOI:10.7498/aps.67.20171903
发表时间:2018
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DOI:10.3969/j.issn.1673-1689.2021.10.004
发表时间:2021
4

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015
5

双吸离心泵压力脉动特性数值模拟及试验研究

双吸离心泵压力脉动特性数值模拟及试验研究

DOI:10.13465/j.cnki.jvs.2020.19.016
发表时间:2020

张志敏的其他基金

批准号:81802292
批准年份:2018
资助金额:21.00
项目类别:青年科学基金项目
批准号:61704070
批准年份:2017
资助金额:25.00
项目类别:青年科学基金项目
批准号:81774103
批准年份:2017
资助金额:25.00
项目类别:面上项目
批准号:51501178
批准年份:2015
资助金额:16.00
项目类别:青年科学基金项目
批准号:81202674
批准年份:2012
资助金额:23.00
项目类别:青年科学基金项目
批准号:81301631
批准年份:2013
资助金额:23.00
项目类别:青年科学基金项目
批准号:49102028
批准年份:1991
资助金额:4.00
项目类别:青年科学基金项目
批准号:31902391
批准年份:2019
资助金额:21.00
项目类别:青年科学基金项目

相似国自然基金

1

面向大规模基因表达谱的数据挖掘及并行分析方法研究

批准号:61702134
批准年份:2017
负责人:廖清
学科分类:F0213
资助金额:25.00
项目类别:青年科学基金项目
2

复杂色谱-质谱联用数据准确快速定性分析新方法研究

批准号:21205118
批准年份:2012
负责人:张良晓
学科分类:B0310
资助金额:25.00
项目类别:青年科学基金项目
3

面向大规模流数据的完备性挖掘方法研究

批准号:60403021
批准年份:2004
负责人:靳晓明
学科分类:F0202
资助金额:23.00
项目类别:青年科学基金项目
4

基于生物信息学和高分辨质谱技术的代谢组深度注释新方法研究

批准号:21874132
批准年份:2018
负责人:路鑫
学科分类:B0403
资助金额:66.00
项目类别:面上项目