Metagenome based on next-generation DNA sequencing technology is one of the most important means of understanding the structure and function of microbial community. However, firstly, the amount of metagenomic samples was increasing rapidly; secondly, metagenomic datasets have different type, source and quality; thirdly, different biological questions need the analysis method to be multi-fucntional, high-speed and adaptive to different data. As such, current metagenomics data analysis is still dependent on human experience, and there is urgent needs for systematic, reliable and standard metagenomic data analytical method. To trackle this bottleneck, this study would select a large number of metagenomic samples, and systematically investigate the effect of varies factors that could affect the analysis strategy and results for metagenomic data analysis, such as the complexity structure (taxonomy and function), data type (evolutionary marker such as 16S rRNA, or whole genome sequencing), sequence type (454 or Solexa) and sequencing depth, etc. Then by using data mining methods, we will summarize the effect of the above factors on the results of metagenomic data analysis, and propose a biologically meaningful and representative parameter matrix that could be applied on different metagenomic data analysis. Finally, we will propose a general method and pipeline for metagenomic data analysis, and establish of a database of parameters and supporting data. This analysis method, together with the parameter matrix, could facilitate a series of metagenomic data analysis objectives, such as the analysis of taxonomical and functional structure analysis of microbial community, metagenome assembly and gene annotation in metagenome.
基于新一代DNA测序技术的元基因组方法是认识微生物群落结构和功能的最重要手段之一。但是,首先,目前元基因组数据量呈爆炸式上升趋势;其次,元基因组数据在类型、来源、质量上十分复杂;最后,基于元基因组数据的不同科学问题,对其分析方法提出了广谱性、多功能与高速度等挑战。这些挑战和困难的存在,导致目前对于元基因组数据解析仍处于经验化阶段,缺乏系统、可靠、可参照的分析方法。针对该瓶颈,本项目通过选择海量元基因组样本,系统考察群落的数据类型(16S rRNA等进化标记或全基因组测序)、序列类型(454或Solexa)以及测序深度等若干因素对基于元基因组数据的不同科学问题分析策略的影响。进而运用数据挖掘等方法,总结上述因素影响机制的共性、特性和互相影响,提出具一定参照意义、代表性与通用性的技术参数矩阵。最终开发通用的元基因组数据分析方法,并建立相关分析策略参数和支撑数据的数据库,服务于元基因组研究。
基于新一代DNA测序技术的元基因组方法是认识微生物群落结构和功能的最重要手段之一。但是,首先,目前元基因组样本量呈爆炸式上升趋势;其次,元基因组数据在类型、来源、质量上十分复杂;最后,基于元基因组数据的不同科学问题,对其分析方法提出了广谱性、多功能与高速度等挑战。这些挑战和困难的存在,导致目前对于元基因组数据解析仍处于经验化阶段,缺乏系统、可靠、可参照的分析方法。针对该瓶颈,本项目通过选择海量元基因组样本,系统考察群落的数据类型(16S rRNA等进化标记或全基因组测序)、序列类型(454或Solexa)以及测序深度等若干因素对基于元基因组数据的不同科学问题分析策略的影响。进而运用数据挖掘等方法,总结上述因素影响机制的共性、特性和互相影响,提出具一定参照意义、代表性与通用性的技术参数矩阵。最终开发通用的元基因组数据分析方法和流程,并建立相关参数和支撑数据的数据库,服务于元基因组研究。
{{i.achievement_title}}
数据更新时间:2023-05-31
病毒性脑炎患儿脑电图、神经功能、免疫功能及相关因子水平检测与意义
基于被动变阻尼装置高层结构风振控制效果对比分析
基于LS-SVM香梨可溶性糖的近红外光谱快速检测
基于改进LinkNet的寒旱区遥感图像河流识别方法
基于文献计量学和社会网络分析的国内高血压病中医学术团队研究
代谢组学数据高性能分析方法与整体策略研究
基于元基因组相似度计算的海量微生物群落数据挖掘
基于图数据库理论的海量RDF数据存储和查询方法研究
基于海量、多域、高维数据挖掘的中医疗效分析方法研究