Microbial communities have the richest biological diversity on the Earth. It is significant to reveal the microbial communities for the human healthy, environment and agriculture. High throughput sequencing technique offers accurate nucleotide sequences to explore the microbial communities. Most of the previous studies were alignment-based on reference sequences, which lead to the roughness and incompleteness of the analysis. The alignment-free methods on sequence signatures for high throughput sequencing data were initially developed , and their accuracy and feasibility are far from satisfactory. .. This proposal is going to build an efficient computational platform for analyzing microbial communities on high throughput sequencing data. Biological analysis of different levels are designed on different granularity. (1)Free from reference sequences, the adaptive statistical model to measure the Beta diversity of communities will be developed. (2)The specific species and genes will be identified based on the feature selection and classification on high-dimension sequence signatures. (3)The community profiling will be analyzed with semi-supervised clustering on statistical characteristics. (4)In the proposal, the methodology for comparison, analysis and understanding of microbial communities will be constructed, and the further biological annotations will be designed. The computational platform is going to give a comprehensive exploration and understanding of microbial communities.
微生物群落是地球上生物多样性最丰富的资源,揭秘微生物群落对人类健康、自然环境及农业等领域意义重大。高通量测序为探寻微生物群落提供准确到核酸层面的有力数据。现有的研究主要基于微生物物种的基因组或16S rRNA参考序列,分析结果较为粗糙或不完整。基于序列特征的方法不依赖参考序列,但在高通量测序数据上的应用刚起步,其模型准确性、信息细致性和实际操作性有待完善。..本研究将构建高通量测序数据下微生物群落的高性能计算平台,基于不同的信息粒度逐步深入进行不同层面的生物分析。①不依赖参考序列,建立自适应统计模型衡量微生物群落的Beta多样性;②通过长特征序列识别不同类别微生物群落的特异物种/基因;③基于序列分布统计特性分析群落的物种结构组分;④在以上研究基础上,构建微生物群落比较、分析方法体系,设计后续的生物注释,建立开源、并行的计算平台,帮助研究同行全面理解人体及自然环境中的各类微生物群落。
本项目基于高通量测序数据,对微生物群落的比较、分析与理解展开研究工作。项目进行的四年中,我们建立比较不同群落、识别不同类别群落差异标记物的模型,构建群落内部物种结构的估计算法,并代码实现提出的模型和算法,建立高性能工作流计算平台,实现不依赖于参考序列的微生物群落的比较、分析和理解。.首先,项目组提出基于高通量测序数据的变阶次马尔科夫模型和模型中参数的最优选择策略,解决不同微生物群落相异度计算的定阶次马尔科夫模型的最优阶次没有先验知识确定、实际应用困难的问题;该模型运用于鲍鱼新老品种肠道菌群的比较中,得到显著的结果和有意义的生物解释。.其次,项目组给出宏基因组测序数据的聚类改善模型,明显提高了现有的五个长序列无监督聚类工具的聚类效果;同时建立基因组碱基序列的压缩表示算法,并通过高效快速的比对算法实现未知序列的快速精准数据库比对。.再次,项目组提出以长k-tuple(>30bp)为特征,基于宏基因组测序数据寻找两组不同类别(例如病人和健康人)的特异性长k-tuple特征,进而拼装出长序列标记物;该模型被开发为友好高效的代码和图形化的运行软件。同时,基于微生物群落的丰度和序列相似性所构建的物种相互作用关系图,项目组提出基于图嵌入模型的微生物功能估计模型,为未知生物的功能预测提供有益的参考。.在基金资助下,本项目顺利开展,完成预期目标。项目组从微生物群落间的比较、群落内的分析和比较层面,系统地对微生物群落的相异度计算模型、统计模型和比较模型与方法进行研究,取得一系列进展,共发表论文12篇,获批发明专利2项,软件著作权1项,申请发明专利3项。本项目从计算的角度为微生物群落的比较提供有益的工具和视角,为运用信息科学的理论与方法解决生命科学的关键问题提供新模型、新方法和计算平台。
{{i.achievement_title}}
数据更新时间:2023-05-31
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
疏勒河源高寒草甸土壤微生物生物量碳氮变化特征
F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度
桂林岩溶石山青冈群落植物功能性状的种间和种内变异研究
水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应
LncRNA RPL37AP1通过调控HNF4A/CEBPA/RPSA轴促使贲门腺癌侵袭迁移的新机制
基于高通量测序的耦合废水处理与产电的微生物群落与功能研究
利用深度测序与比较元基因组学分析海绵共生微生物群落代谢潜力与生态学功能
基于高通量测序技术的cMWCNTs对污损早期微生物膜群落形成的微观调控机制研究
基于宏基因组测序数据的微生物基因组序列鉴定及群落比较方法研究