基于伪度量空间分割树的超高深度测序比对处理与定量基因组学分析

基本信息

批准号：31200995

项目类别：青年科学基金项目

资助金额：20.00

负责人：蔡云鹏

学科分类：

依托单位：中国科学院深圳先进技术研究院

批准年份：2012

结题年份：2015

起止时间：2013-01-01 - 2015-12-31

项目状态：已结题

项目参与者：郑卓远,樊小毛,杨玉洁,何晨光,苗芬

关键词：

序列比对超高深度测序高通量测序宏基因组学

结项摘要

Ultra-deep sequencing is a type of next-generation sequencing approach for investigating the genetic details of the evolutionary mechanisms in life science. Traditional methods for the processing of sequencing data is quite limited in computational speed and have severe defects regarding accuracy, which are incapable of handling the large amount of data produced by ultra-deep sequencing nowadays. In this project we propose an efficient and novel method for accurate alignment, error-correction and clustering of ultra-deep sequencing data, based on the ideas of pseudo-metric space partitioning tree, multidimensional scaling and dynamic closest pair search, and with the aid of parallel computing. The aim of the project is to conquer the data size of over 10 million pyrosequencing reads, which will be a premium performance among the state-of-the-art. We also propose a pipeline of performing quantitative genomics analyses and exploring meaningful biology discoveries based on the achieved clustering results by applying numericalization techniques and adopting advance data mining methods. The implementation of the project will lead to a series of computational methods, pipelines and software for processing of ultra-deep sequencing data, which will provide powerful supports to genomics and meta-genomics research in the form of methodology and tools.

项目摘要

超高深度测序是深入研究生物基因组进化机制细节所需要采取的一类高通量测序手段。传统的测序数据处理手段在计算速度和精确度上都存在严重缺陷，无法满足目前超高深度测序的数据吞吐量要求。本项目利用伪度量空间分割树、多维标度分析和动态最近邻点对查找的思想，借助高性能并行计算，提出并实现对海量超高深度测序数据进行高效精确比对、纠错和聚类的原创性方法，力争在国际上率先实现千万条以上焦磷酸测序序列的精确比对与聚类。在此基础上，通过将聚类结果进行数值向量化以及借助数据挖掘技术，提出并实现一套对多样本测序数据进行量化基因组分析、发掘其中所蕴含的生物学规律的分析方法，解决一系列在计算机科学和生物信息学领域具有普遍意义的课题。本项目的研究成果体现为处理超高深度测序数据的一系列计算方法、处理流程以及工具软件，为基因组学和宏基因组学研究提供强有力的方法论支持和工具支持。经过三年的研究，项目组完成了两种具有千万条以上焦磷酸测序序列处理能力的高效并行聚类比对算法ESPRIT-Forest和HLHC，并应用相关工具对海洋微生物大规模测序数据进行了宏基因组学研究，相关工作发表了SCI\EI论文5篇（包括SCI二区论文1篇），申请发明专利3项，核心成果发表在数据挖掘领域著名国际会议ICDM上，以及分别向PLOS Computational Biology及Molecular Ecology等期刊投稿，顺利完成了项目预定指标。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.11963/1002-7807.wjjfsl.20190515

发表时间：2019

DOI：10.11766/trxb201908050402

发表时间：2021

DOI：10.11834/jrs.20209056

发表时间：2020

DOI：10.16451/j.cnki.issn1003-6059.202103002

发表时间：2021

DOI：

发表时间：2019

蔡云鹏的其他基金

批准号：11471313

批准年份：2014

资助金额：70.00

项目类别：面上项目

相似国自然基金

函数空间与度量测度空间上的分析

批准号：11201015

批准年份：2012

负责人：周渊

学科分类：A0205

资助金额：22.00

项目类别：青年科学基金项目

细胞发育谱系树比对算法的设计与应用

批准号：31871320

批准年份：2018

负责人：杨建荣

学科分类：C0609

资助金额：60.00

项目类别：面上项目

基于深度学习的函数型数据分析与处理

批准号：U1830107

批准年份：2018

负责人：陈迪荣

学科分类：A31

资助金额：62.00

项目类别：联合基金项目

多尺度地图空间信息定量度量的层次理论与方法

批准号：41171351

批准年份：2011

负责人：邓敏

学科分类：D0115

资助金额：60.00

项目类别：面上项目

基于伪度量空间分割树的超高深度测序比对处理与定量基因组学分析

{{i.achievement_title}}

暂无此项成果

其他相关文献

陆地棉无绒突变体miRNA的鉴定及其靶标基因分析

不同类型水稻土微生物群落结构特征及其影响因素

基于编解码网络的航空影像像素级建筑物提取

序列多智能体强化学习算法

特高压冲击电压分压器线性度测量方法比较

蔡云鹏的其他基金

面向进化基因组学的高通量测序数据流形建模

相似国自然基金