The project focuses on key problems of data analysis in metabolomics, including bias, inefficiency and lack of holistic strategy. The information and data from public database, including HMDB, METLIN, Massbank, ChemSpider and PubChem will be fully mined and integrated. The data independent acquisition (DIA) mass spectrometry and molecular fingerprint in chemical informatics will be used to process the metabolomics dataset. Model population analysis (MPA) and ideology of ensemble learning proposed by our group will be used to establish new model evaluation method and select variable of high dimensional data. Based on high performance computing technology in information science, such as OpenMP, CUDA, GPGPU and 64 bit, the latest achievements of machine learning methods will be introduced to horizontally develop underlying basic algorithm and high performance methods, including deep learning, Bayesian program learning and Multi-layer Extreme Learning Machine. The corresponding professional function modules will be built. The user friendly, intelligent software system will be constructed using professional module and t appropriate interface technology, through the integration of all methods. A one-stop platform will be developed for metabolomics data analysis. The result will push metabolomics into clinical application.
项目针对代谢组学数据分析所面临的有偏、低效、整体策略缺乏等关键问题,基于高性能计算技术(OpenMP、CUDA、GPGPU和64 bit),引入机器学习最新成果(深度学习、贝叶斯程序学习和多层极限学习机等),充分整合公共数据库(HMDB、METLIN、Massbank和ChemSpider、PubChem)资源,结合质谱数据非依赖性采集技术(DIA)、分子指纹技术和本小组提出的化学计量学模型集群分析(MPA)与集成学习思想(Ideology of Ensemble Learning),纵向深入地开展代谢组学数据底层基础算法与高性能计算方法研究,并在此基础上,构建合理的专业功能模块,以合适的接口技术,搭建系统全面的整体策略,开发一站式高性能数据分析平台与软件,为代谢组学研究提供准确、快速、方便的数据分析手段,为其进入实际应用扫清障碍。
项目针对代谢组学数据分析所面临的有偏、低效、整体策略缺乏等关键问题,基于高性能计算技术,采用机器学习,充分整合公共数据库(HMDB、METLIN、 Massbank、ChemSpider、PubChem),结合质谱数据非依赖性采集技术(DIA)、分子指纹等技术,开发了系列可用于代谢组学数据分析的底层基础新算法与高性能计算方法(包括KPIC、FPIC、MARS、DeepEI、DeepMASS等),这些方法为代谢组学数据分析有偏及代谢物定性不准确提供了解决途径。与现有方法相比,这些方法都表现出了优异的性能;并在此基础上,搭建了集数据预处理、定性定量、统计分析、数据库搜索等功能为一体的代谢组学数据高性能分析策略与软件(包括MARS2、KPIC2、TarMet等)。这大大改善了目前代谢组学数据分析低效、碎片化的分析现状,为代谢组学研究提供准确、快速、方便的数据分析手段。所有软件工具都是实现开源,供代谢组学研究者使用。已发表基金标注的国际学术期刊论文26篇,参与出版专著2部,培养博士4人,硕士12人。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
转录组与代谢联合解析红花槭叶片中青素苷变化机制
栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究
青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化
气载放射性碘采样测量方法研究进展
代谢组学数据挖掘方法研究
基于海量样本的高性能元基因组数据分析策略和方法开发
代谢组学高通量数据预处理及多变量分析方法研究
代谢组学数据解析方法用于肺癌早期诊断