Along with the development of next generation sequencing technologies, the cost of whole genome sequencing drastically decreases. In the future, the genomes of new born babies will be sequenced after their birth, and the number of personal genomes will be explosively grows. This brings a new challenge on bioinformatics and algorithms which is how to use multiple personal genomes as reference to perform read mapping. It will cost in both space and time to tackle this problem by conventional read mapping approaches. In this project, based on the high similarities between different personal genomes, a multiple reference genome indexing approach with low space complexity will be proposed to reduce the space cost during read mapping. Furthermore, utilizing the multiple reference genomes index, a sequence alignment model will be proposed to effectively handle the mismatches, insertions and deletions during read mapping. Finally, a read mapping approach with low time complexity will be proposed by optimizing the sequence alignment model according to the characteristics of next generation sequencing data. This project will improve the performance of read mapping, and promote new development in bioinformatics theories.
随着新一代基因组测序技术的发展,测序成本逐渐降低,未来新生儿一出生即可接受测序服务,个人基因组数量将出现爆发性增长。这为生物信息学和算法科学提出了新的挑战,即如何以多个个人基因组为参考进行read映射。传统read映射方法解决此问题的空间和时间开销较高。本研究将首先基于个人基因组之间的高度相似性,建立具有低空间复杂度的多参考基因组索引,降低read映射过程中的空间开销。其次,本研究将提出面向多参考基因组索引的序列比对模型,有效解决read映射中出现的错配、插入、删除等各类情况。最后,本研究针对新一代测序数据的特点,对序列比对模型进行优化,提出具有较低时间复杂度的read映射方法。本研究将提升现有read映射方法的性能,并带动生物信息学相关理论的发展。
随着高通量基因组测序技术的快速发展和广泛应用,已完成测序的基因组数量正在呈现爆发式增长。大量基因组科学前沿研究已经不满足于将测序片段与单一参考基因组进行比对来进行重测序分析,而是渴望将测序片段与大量已知参考基因组进行比对,以获得更加精细的基因组序列分析结果。同时,伴随着基因组测序能力的快速增长,基因组测序片段的产生速度呈指数级提升,迫切需要高效的序列比对算法和系统实现更加快速基因组序列比对。这对生物信息学理论与技术的发展提出了重大挑战。.本项目主要针对当前基因组科学的发展需求,进行面向多参考基因组的基因组测序片段快速比对算法研究。本项目主要在以下四个方面进行了研究工作:1)面向多参考基因组的序列比对理论与算法;2)面向海量基因组序列的序列自索引快速构建理论与算法;3)面向第三代测序片段的快速比对算法;4)面向基因组结构变异的基因组长测序片段比对算法。通过本项目研究,共产生了五项具有创新性的基因组索引与测序片段快速比对算法:1)基于图结构索引的基因组序列比对算法deBGA;2)基于de Bruijn图路径分支编码的基因组自索引快速构建算法deBWT;3)基于区域哈希表的第三代测序片段快速比对算法rHAT;4)基于长近似种子和稀疏动态规划的超长测序片段比对算法LAMSA;5)面向结构变异的第三代测序片段快速过滤算法rMFilter。.这些算法构成了一个全新的面向多参考基因组进行基因测序片段比对的技术体系。这一技术体系完全支持当前主流测序平台,如Illumina HiSeq/MiSeq、PacBio SMRT、Oxford Nanopore等产生的第二、三代测序数据,并将当前主流基因组序列比对算法的速度提升了数倍至数十倍,有效解决了当前基因组分析中测序片段比对这一瓶颈问题。本项目的主要成果均在世界顶级生物信息学期刊《Bioinformatics》(SCI IF:5.766,中科院一区)发表(已发表四篇,一篇修改后录用),并在同行评议过程中获得国际同行的高度评价。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
PGE2和PGF2α对奶牛子宫内膜上皮细胞TLR2、TLR4及RP105参与的信号转导通路激活的调控
高通量DNA测序片段的拼接
基于自组装参考基因组的高通量长读测序数据压缩和比对集成研究
基于高通量测序数据多供体植物基因组结构变异识别方法研究
肿瘤基因突变高通量测序检测游离DNA参考物质的研究