新一代测序技术宏基因组数据分析的统计算法研究与应用

基本信息
批准号:61370131
项目类别:面上项目
资助金额:73.00
负责人:艾冬梅
学科分类:
依托单位:北京科技大学
批准年份:2013
结题年份:2017
起止时间:2014-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:曾广平,夏立,张青川,肖超恩,陈全,张望舒,卢杨,赵清玉
关键词:
生物信息学新一代测序云服务宏基因组学统计模型和算法
结项摘要

Recent years, revolutionary next-generation sequencing (NGS) technology has greatly pushed the frontier of metagenomics research forward. However, as the NGS dataset become larger and more comprehensive, prevalent computational analysis methods have been left behind and became the bottleneck of metagenomics studies. The proposed project emphasize on developing computational and statistical approaches for the taxonomical and functional abundance analysis and the subsequent association analysis in metagenomics research, researching accurate and efficient statistical algorithms which can analysis of metagenomic species and functional gene abundance , as well as statistical algorithms which can discovery and analysis of local associated of binary or ternary with a delay between gene,fully coping with the challenges of huge size, high complexity and read origin uncertainty that accompanies the NGS dataset, and aiming at new methods that can efficiently and accurately analyze the composition of and discover the novel associations within the NGS dataset. The project will also employ cloud-computing technology to implement the developed computational and statistical methods, so as to facilitate the integration of data management, pipeline analysis and community collaboration for biologists and users. The algorithm and software developed will be validated using simulated and real data. The newly developed methods and services are widely applicable to metagenomics studies, for which, it can solidify the foundations of quantitative analysis, provide new theoretical and technical support.

近年来,革命性的新一代测序技术推动了宏基因组学的迅猛发展。随着测序手段的改变和数据复杂程度的增加,原有的计算生物和生物信息方法已不再适用。如何准确高速计算分析庞大复杂的新一代测序宏基因组数据,成为制约其进一步发展的瓶颈。本项目着重从宏基因组物种和功能组成丰度估计以及各成分间的关联性分析入手,针对新一代数据数量大,复杂度高,读片来源不确定的情况,研究准确、高效的分析宏基因组种群和功能基因丰度的统计算法,以及有效地发现和分析基因之间带延迟的局部二元或三元关联问题的统计算法。项目也将结合新兴的云计算手段实现上述算法,使之成为对生物学研究者和用户的透明简易可用的云服务分析平台,并使用模拟和实际数据来验证算法和软件服务。项目所设计的算法和服务可被广泛应用到宏基因组学研究中,夯实其分析的基础,提供新的理论和技术支持。

项目摘要

本项目面向新一代测序宏基因组数据,针对如何有效地分析宏基因组学物种及功能的相对丰度,微生物之间的关联性等。提出了更为准确,快速,可并行的数据分析算法,为研究宏基因组微生物之间以及微生物和环境之间的关联性提供了有力地分析工具。主要研究内容包括:.1) 以核心基因组为参考基因组的宏基因组物种相对丰度估计算法。核心基因组是所有菌株中都存在的基因。利用核心基因组序列作为参考基因组不仅提高了精度,而且由于参考序列较少,比对效率大幅提升,相对丰度的估计速度更快。结果证明该算法提高了相对丰度估计的准确度和速度,更适用于高通量宏基因组数据。 .2)宏基因组中微生物功能基因组相对丰度算法。课题组综合有限混合概率模型和负二项分布,并应用EM算法估计海洋微生物宏基因组中各功能基因组的相对丰度。实验结果揭示了海洋微生物的部分功能基因与其所处生态环境之间的相关性。.3)提出了局部相似值的统计显著性p-value理论计算方法。针对局部相似值的统计显著性而进行的置换检验,耗费的时间巨大的问题。课题组利用独立同分布变量的局部和理论,由概率密度函数推导出带延迟和复制的局部和的概率分布函数,提出了计算统计显著性的p-value的理论方法,提高了运算速度。.4)提出了基于趋势分析的计算p-value的理论方法。基于趋势分析的计算p-value的理论方法是利用不可约和非周期马尔科夫链模型的标准差算法理论,推导出局部和的标准差,对于不同的阈值标准差的值不同,利用独立同分布局部和理论,推导出三种趋势状态下的物种之间的关联性的统计显著性的p-value的理论方法。.5)将高通量的生物时间序列局部关联算法与云平台结合。通过虚拟化实验室已有硬件设施以构建资源池,进而通过分配计算、存储以及网络搭建了Hadoop集群环境,将微生物局部关联分析算法eLSA经过并行化,在Hadoop架构下,实现了基于MapReduce的并行局部关联算法。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

货币政策与汇率制度对国际收支的影响研究

货币政策与汇率制度对国际收支的影响研究

DOI:
发表时间:2022

艾冬梅的其他基金

批准号:61873027
批准年份:2018
资助金额:63.00
项目类别:面上项目

相似国自然基金

1

基于新一代测序数据的全基因组拼接组装算法研究

批准号:61173085
批准年份:2011
负责人:王亚东
学科分类:F0213
资助金额:55.00
项目类别:面上项目
2

基于新一代测序数据的顺式调控模体预测与分析

批准号:61772313
批准年份:2017
负责人:刘丙强
学科分类:F0213
资助金额:63.00
项目类别:面上项目
3

基于新一代测序的法医学线粒体全基因组分析的应用基础研究

批准号:81172909
批准年份:2011
负责人:严江伟
学科分类:H2502
资助金额:60.00
项目类别:面上项目
4

基于新一代肿瘤测序数据的驱动通路发现与综合分析方法研究

批准号:61472467
批准年份:2014
负责人:王树林
学科分类:F0213
资助金额:62.00
项目类别:面上项目