In next-generation sequencing(NGS), error correction in short reads is critical in assembly of high quality sequences.In this proposal, we propose to study the characteristic of short reads data generated from NGS and its associated errors,build appropriate quality models to guide error correction process. We will investigate cluster models which have high coverage and fine grain ability to group similar and neigborhood short reads into a cluster. Then errors are corrected in individual cluster separately which is distributed in different computing nodes. In order to utilize limited computing facility to cope with large-scale volume of NGS data, we will study distributed framework which will speed up the computing time, decrease the requirement memory usage,and result in more acurate short reads for assemble. The proposed research will benefit high throughput NGS applications both in research and in practice,ie. personalized medicine.
在下一代测序技术中,错误修正模型是序列拼接的基础,是正确有效测序的重要保证,也是近年生物信息学研究的热点之一。本课题拟通过研究下一代测序数据特征及其错误的分布特点,建立数据质量模型,为错误修正技术提供数据自适应模型。本课题计划对测序数据进行高覆盖细粒度分组聚合,将相似的测序数据聚合在同一组内,应用错误判别模型识别组内错误数据,并进行组内错误修正处理。为了有效利用有限的计算资源来处理海量数据,本课题将采用分布式计算框架,从而达到快速高效的错误修正目的,为测序技术的实际应用提供支持。本课题的研究成果可以结合目前高速发展的下一代测序技术应用在生物科学中的研究和临床疾病的检测,如个性化医疗等领域。
在下一代测序技术中,在进行短序列拼接之前需要进行测序数据的错误修正。本课题从数据特征分析,错误判别模型,细粒度聚类,序列相似度算法以及错误修正模型等几方面开展了研究。通过构建统计模型以及深度神经网络等方法,课题组建立了数据质量模型,用于拟合测序数据的错误率;构建了短序列错误判别模型,用于判别read出现错误的位置;通过提取序列特征,计算序列相似度的手段构建高覆盖细粒度聚类算法;开发错误修正模型,在聚集相似序列的基础上进行read的错误修正;研究分布式计算架构,将以上成果在分布式计算架构进行改造,以适应海量测序数据。在整合以上几方面的研究成果的基础上,构建了一个以Hadoop为分布式计算架构的分布式生物测序错误修正系统。本课题的研究成果可以结合目前高速发展的下一代测序技术应用在生物科学中的研究和临床疾病的检测,如个性化医疗等领域。本课题的研究成果还可以应用在第三代生物测序技术上。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
涡度相关技术及其在陆地生态系统通量研究中的应用
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
基于云计算平台的下一代测序数据错误修正算法研究与实现
下一代测序数据中的多重检验问题研究
情境感知自适应软件的失效分析与错误修复技术研究
可信约束下软件错误诊断与修正框架