基于伪度量空间分割树的超高深度测序比对处理与定量基因组学分析

基本信息
批准号:31200995
项目类别:青年科学基金项目
资助金额:20.00
负责人:蔡云鹏
学科分类:
依托单位:中国科学院深圳先进技术研究院
批准年份:2012
结题年份:2015
起止时间:2013-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:郑卓远,樊小毛,杨玉洁,何晨光,苗芬
关键词:
序列比对超高深度测序高通量测序宏基因组学
结项摘要

Ultra-deep sequencing is a type of next-generation sequencing approach for investigating the genetic details of the evolutionary mechanisms in life science. Traditional methods for the processing of sequencing data is quite limited in computational speed and have severe defects regarding accuracy, which are incapable of handling the large amount of data produced by ultra-deep sequencing nowadays. In this project we propose an efficient and novel method for accurate alignment, error-correction and clustering of ultra-deep sequencing data, based on the ideas of pseudo-metric space partitioning tree, multidimensional scaling and dynamic closest pair search, and with the aid of parallel computing. The aim of the project is to conquer the data size of over 10 million pyrosequencing reads, which will be a premium performance among the state-of-the-art. We also propose a pipeline of performing quantitative genomics analyses and exploring meaningful biology discoveries based on the achieved clustering results by applying numericalization techniques and adopting advance data mining methods. The implementation of the project will lead to a series of computational methods, pipelines and software for processing of ultra-deep sequencing data, which will provide powerful supports to genomics and meta-genomics research in the form of methodology and tools.

超高深度测序是深入研究生物基因组进化机制细节所需要采取的一类高通量测序手段。传统的测序数据处理手段在计算速度和精确度上都存在严重缺陷,无法满足目前超高深度测序的数据吞吐量要求。本项目利用伪度量空间分割树、多维标度分析和动态最近邻点对查找的思想,借助高性能并行计算,提出并实现对海量超高深度测序数据进行高效精确比对、纠错和聚类的原创性方法,力争在国际上率先实现千万条以上焦磷酸测序序列的精确比对与聚类。在此基础上,通过将聚类结果进行数值向量化以及借助数据挖掘技术,提出并实现一套对多样本测序数据进行量化基因组分析、发掘其中所蕴含的生物学规律的分析方法,解决一系列在计算机科学和生物信息学领域具有普遍意义的课题。本项目的研究成果体现为处理超高深度测序数据的一系列计算方法、处理流程以及工具软件,为基因组学和宏基因组学研究提供强有力的方法论支持和工具支持。

项目摘要

超高深度测序是深入研究生物基因组进化机制细节所需要采取的一类高通量测序手段。传统的测序数据处理手段在计算速度和精确度上都存在严重缺陷,无法满足目前超高深度测序的数据吞吐量要求。本项目利用伪度量空间分割树、多维标度分析和动态最近邻点对查找的思想,借助高性能并行计算,提出并实现对海量超高深度测序数据进行高效精确比对、纠错和聚类的原创性方法,力争在国际上率先实现千万条以上焦磷酸测序序列的精确比对与聚类。在此基础上,通过将聚类结果进行数值向量化以及借助数据挖掘技术,提出并实现一套对多样本测序数据进行量化基因组分析、发掘其中所蕴含的生物学规律的分析方法,解决一系列在计算机科学和生物信息学领域具有普遍意义的课题。本项目的研究成果体现为处理超高深度测序数据的一系列计算方法、处理流程以及工具软件,为基因组学和宏基因组学研究提供强有力的方法论支持和工具支持。经过三年的研究,项目组完成了两种具有千万条以上焦磷酸测序序列处理能力的高效并行聚类比对算法ESPRIT-Forest和HLHC,并应用相关工具对海洋微生物大规模测序数据进行了宏基因组学研究,相关工作发表了SCI\EI论文5篇(包括SCI二区论文1篇),申请发明专利3项,核心成果发表在数据挖掘领域著名国际会议ICDM上,以及分别向PLOS Computational Biology及Molecular Ecology等期刊投稿,顺利完成了项目预定指标。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
2

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

DOI:10.11999/JEIT210095
发表时间:2021
3

采用深度学习的铣刀磨损状态预测模型

采用深度学习的铣刀磨损状态预测模型

DOI:10.3969/j.issn.1004-132x.2020.17.009
发表时间:2020
4

时间序列分析与机器学习方法在预测肺结核发病趋势中的应用

时间序列分析与机器学习方法在预测肺结核发病趋势中的应用

DOI:
发表时间:2020
5

工业萝卜泡菜发酵过程中理化特性及真菌群落多样性分析

工业萝卜泡菜发酵过程中理化特性及真菌群落多样性分析

DOI:10.13995/j.cnki.11-1802/ts.028275
发表时间:2022

蔡云鹏的其他基金

批准号:11471313
批准年份:2014
资助金额:70.00
项目类别:面上项目

相似国自然基金

1

函数空间与度量测度空间上的分析

批准号:11201015
批准年份:2012
负责人:周渊
学科分类:A0205
资助金额:22.00
项目类别:青年科学基金项目
2

细胞发育谱系树比对算法的设计与应用

批准号:31871320
批准年份:2018
负责人:杨建荣
学科分类:C0609
资助金额:60.00
项目类别:面上项目
3

基于深度学习的函数型数据分析与处理

批准号:U1830107
批准年份:2018
负责人:陈迪荣
学科分类:A31
资助金额:62.00
项目类别:联合基金项目
4

多尺度地图空间信息定量度量的层次理论与方法

批准号:41171351
批准年份:2011
负责人:邓敏
学科分类:D0115
资助金额:60.00
项目类别:面上项目