下一代测序数据自适应错误修正技术的研究

基本信息

批准号：61472082

项目类别：面上项目

资助金额：63.00

负责人：林劼

学科分类：

依托单位：福建师范大学

批准年份：2014

结题年份：2018

起止时间：2015-01-01 - 2018-12-31

项目状态：已结题

项目参与者：Donald Asogu Adjeroh,江育娥,王建文,颜西山,金彪,黄伟,郭金文,李莉,翁金芳

关键词：

聚合模型下一代测序技术生物信息处理序列分析错误修正

结项摘要

In next-generation sequencing(NGS), error correction in short reads is critical in assembly of high quality sequences.In this proposal, we propose to study the characteristic of short reads data generated from NGS and its associated errors,build appropriate quality models to guide error correction process. We will investigate cluster models which have high coverage and fine grain ability to group similar and neigborhood short reads into a cluster. Then errors are corrected in individual cluster separately which is distributed in different computing nodes. In order to utilize limited computing facility to cope with large-scale volume of NGS data, we will study distributed framework which will speed up the computing time, decrease the requirement memory usage,and result in more acurate short reads for assemble. The proposed research will benefit high throughput NGS applications both in research and in practice,ie. personalized medicine.

在下一代测序技术中，错误修正模型是序列拼接的基础，是正确有效测序的重要保证，也是近年生物信息学研究的热点之一。本课题拟通过研究下一代测序数据特征及其错误的分布特点，建立数据质量模型，为错误修正技术提供数据自适应模型。本课题计划对测序数据进行高覆盖细粒度分组聚合，将相似的测序数据聚合在同一组内，应用错误判别模型识别组内错误数据，并进行组内错误修正处理。为了有效利用有限的计算资源来处理海量数据，本课题将采用分布式计算框架，从而达到快速高效的错误修正目的，为测序技术的实际应用提供支持。本课题的研究成果可以结合目前高速发展的下一代测序技术应用在生物科学中的研究和临床疾病的检测，如个性化医疗等领域。

项目摘要

在下一代测序技术中，在进行短序列拼接之前需要进行测序数据的错误修正。本课题从数据特征分析，错误判别模型，细粒度聚类，序列相似度算法以及错误修正模型等几方面开展了研究。通过构建统计模型以及深度神经网络等方法，课题组建立了数据质量模型，用于拟合测序数据的错误率；构建了短序列错误判别模型，用于判别read出现错误的位置；通过提取序列特征，计算序列相似度的手段构建高覆盖细粒度聚类算法；开发错误修正模型，在聚集相似序列的基础上进行read的错误修正；研究分布式计算架构，将以上成果在分布式计算架构进行改造,以适应海量测序数据。在整合以上几方面的研究成果的基础上，构建了一个以Hadoop为分布式计算架构的分布式生物测序错误修正系统。本课题的研究成果可以结合目前高速发展的下一代测序技术应用在生物科学中的研究和临床疾病的检测，如个性化医疗等领域。本课题的研究成果还可以应用在第三代生物测序技术上。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.16796/j.cnki.1000-3770.2022.03.003

发表时间：2022

DOI：10.12354/j.issn.1000-8179.2021.20201763

发表时间：2021

DOI：10.7524 /j.issn.0254-6108.2017122903

发表时间：2018

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：

发表时间：

林劼的其他基金

批准号：61202084

批准年份：2012

资助金额：24.00

项目类别：青年科学基金项目

相似国自然基金

基于云计算平台的下一代测序数据错误修正算法研究与实现

批准号：31501070

批准年份：2015

负责人：赵亮

学科分类：C0608

资助金额：19.00

项目类别：青年科学基金项目

下一代测序数据中的多重检验问题研究

批准号：11301554

批准年份：2013

负责人：尤娜

学科分类：A0402

资助金额：22.00

项目类别：青年科学基金项目

情境感知自适应软件的失效分析与错误修复技术研究

批准号：61100038

批准年份：2011

负责人：许畅

学科分类：F0203

资助金额：22.00

项目类别：青年科学基金项目

可信约束下软件错误诊断与修正框架

批准号：90718009

批准年份：2007

负责人：张明义

学科分类：F0202

资助金额：50.00

项目类别：重大研究计划

下一代测序数据自适应错误修正技术的研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

EBPR工艺运行效果的主要影响因素及研究现状

外泌体在胃癌转移中作用机制的研究进展

珠江口生物中多氯萘、六氯丁二烯和五氯苯酚的含量水平和分布特征

一种基于多层设计空间缩减策略的近似高维优化方法

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

林劼的其他基金

基于图像视觉分析与人类听觉系统机理的单通道CASA研究

相似国自然基金