In next-generation sequencing(NGS), error correction in short reads is critical in assembly of high quality sequences.In this proposal, we propose to study the characteristic of short reads data generated from NGS and its associated errors,build appropriate quality models to guide error correction process. We will investigate cluster models which have high coverage and fine grain ability to group similar and neigborhood short reads into a cluster. Then errors are corrected in individual cluster separately which is distributed in different computing nodes. In order to utilize limited computing facility to cope with large-scale volume of NGS data, we will study distributed framework which will speed up the computing time, decrease the requirement memory usage,and result in more acurate short reads for assemble. The proposed research will benefit high throughput NGS applications both in research and in practice,ie. personalized medicine.
在下一代测序技术中,错误修正模型是序列拼接的基础,是正确有效测序的重要保证,也是近年生物信息学研究的热点之一。本课题拟通过研究下一代测序数据特征及其错误的分布特点,建立数据质量模型,为错误修正技术提供数据自适应模型。本课题计划对测序数据进行高覆盖细粒度分组聚合,将相似的测序数据聚合在同一组内,应用错误判别模型识别组内错误数据,并进行组内错误修正处理。为了有效利用有限的计算资源来处理海量数据,本课题将采用分布式计算框架,从而达到快速高效的错误修正目的,为测序技术的实际应用提供支持。本课题的研究成果可以结合目前高速发展的下一代测序技术应用在生物科学中的研究和临床疾病的检测,如个性化医疗等领域。
在下一代测序技术中,在进行短序列拼接之前需要进行测序数据的错误修正。本课题从数据特征分析,错误判别模型,细粒度聚类,序列相似度算法以及错误修正模型等几方面开展了研究。通过构建统计模型以及深度神经网络等方法,课题组建立了数据质量模型,用于拟合测序数据的错误率;构建了短序列错误判别模型,用于判别read出现错误的位置;通过提取序列特征,计算序列相似度的手段构建高覆盖细粒度聚类算法;开发错误修正模型,在聚集相似序列的基础上进行read的错误修正;研究分布式计算架构,将以上成果在分布式计算架构进行改造,以适应海量测序数据。在整合以上几方面的研究成果的基础上,构建了一个以Hadoop为分布式计算架构的分布式生物测序错误修正系统。本课题的研究成果可以结合目前高速发展的下一代测序技术应用在生物科学中的研究和临床疾病的检测,如个性化医疗等领域。本课题的研究成果还可以应用在第三代生物测序技术上。
{{i.achievement_title}}
数据更新时间:2023-05-31
EBPR工艺运行效果的主要影响因素及研究现状
外泌体在胃癌转移中作用机制的研究进展
珠江口生物中多氯萘、六氯丁二烯和五氯苯酚的含量水平和分布特征
一种基于多层设计空间缩减策略的近似高维优化方法
基于LS-SVM香梨可溶性糖的近红外光谱快速检测
基于云计算平台的下一代测序数据错误修正算法研究与实现
下一代测序数据中的多重检验问题研究
情境感知自适应软件的失效分析与错误修复技术研究
可信约束下软件错误诊断与修正框架