微生物组构成分析的精确方法研究

基本信息
批准号:61673231
项目类别:面上项目
资助金额:65.00
负责人:张学工
学科分类:
依托单位:清华大学
批准年份:2016
结题年份:2020
起止时间:2017-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:刘莉扬,崔鸿飞,花奎,崔丽嘉,刘山松,罗东阳,李季
关键词:
微生物组仿真建模宏基因组构成分析机器学习
结项摘要

Microbiomes are important for human health. The composition of human microbiomes is very complicated, and metagenome sequencing is a major technology for studying them. There are severe noises and biases in metagenome data. People’s knowledge on the noises and biases are still very limited, which buries many pitfalls for current methods used in microbiome composition analysis at both taxonomy levels and gene levels. And different methods for the same task may give very different results. In this project, we’ll take a systematic effort to address these questions. We’ll develop mathematical models for every major steps in microbiome sample collection, processing and metagenome sequencing, investigate factors that affect metagenome data quality, design simulation models and artificial synthetic microbial mixture models to build up benchmark datasets, and develop new methods for precision analysis of microbiome composition. And we’ll also investigate machine learning approaches for predicting the rough quantity and abundance distribution of unknown genomes from unmapped metagenome data. These study will produce more precise and reliable methods for better understanding the relation between microbiomes and human health.

生活在人体各部位的微生物组与人类健康密切相关,它们有十分复杂的物种和基因构成。宏基因组测序是当前研究微生物组构成的主要手段,但宏基因组数据中存在大量噪声和偏差,人们对这些噪声和偏差的分布特点与影响因素尚缺乏定量认识,导致当前用于物种和基因构成分析的方法存在很多缺陷,不同方法之间结果差异很大。本项目将从对微生物组样本采集、处理、建库和宏基因组测序各环节的数学建模开始,系统研究影响宏基因组数据质量的因素,设计仿真模型和人工合成微生物群落模型,建立标准数据集,基于对噪声和偏差分布的定量数学模型,研究微生物组构成分析的新的精确方法,并探索对数据中未知基因组数目和丰度的机器学习预测方法,为研究微生物组与人类健康关系提供更精确可靠的模型和方法。

项目摘要

人体各部位的微生物组是多种已知和未知的微生物构成的群落,宏基因组测序是对它们基因组的混合测序,要从中估计出各成分微生物的定量构成,有很多信息学挑战。其中一个基础挑战是,对于任何实际采样到的微生物组样本,其真实的微生物定量构成是无法得知的,宏基因组测序就是为了回答这个问题,但对这个问题回答得是否正确,没有标准答案可以检验。本项目的第一部分工作是建立尽可能接近实际数据产生过程的仿真模型,通过仿真模型产生已知答案的标准数据集,这是发展准确估计方法的基础。另一个重要挑战是,宏基因组数据中往往包含未知微生物的基因组,现有的方法都是忽略可能对应这些基因组的测序数据,只根据能比对到已知基因组上的测序数据来估算成分微生物的构成,但这种做法会带来很大的估计偏差。本项目的另一个主要工作是发展了一种统计模型和计算方法,估计宏基因组数据中包含未知基因组在内的基因组总长度,用这个总长度进行归一化能够更准确地估计各种成分基因组的含量。本项目采集了一批慢性胃炎病人的舌苔微生物组样本进行了宏基因组测序和生物信息学分析,发现了对检测胃炎向胃癌转化有早期提示作用的舌苔微生物标志物。此外,项目还发展了从宏基因组测序或基因组测序数据中高效检测重复序列的一种算法,并开发了相应的软件。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
3

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
4

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
5

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016

张学工的其他基金

批准号:60275007
批准年份:2002
资助金额:22.00
项目类别:面上项目
批准号:60575014
批准年份:2005
资助金额:23.00
项目类别:面上项目
批准号:69885004
批准年份:1998
资助金额:12.00
项目类别:专项基金项目

相似国自然基金

1

风成沉积物磁组构分析与黄土高原第四纪风向研究

批准号:49000026
批准年份:1990
负责人:吴汉宁
学科分类:D0713
资助金额:4.00
项目类别:青年科学基金项目
2

精确几何拟协调分析方法研究

批准号:11272075
批准年份:2012
负责人:胡平
学科分类:A0813
资助金额:82.00
项目类别:面上项目
3

基于函数分析方法的环形势场的精确解

批准号:11275165
批准年份:2012
负责人:陈昌远
学科分类:A2501
资助金额:68.00
项目类别:面上项目
4

位置相关众感任务的群组构建方法研究

批准号:61300103
批准年份:2013
负责人:於志勇
学科分类:F0209
资助金额:27.00
项目类别:青年科学基金项目