基于多参考基因组的高通量测序片段映射方法研究

基本信息
批准号:61301204
项目类别:青年科学基金项目
资助金额:25.00
负责人:刘博
学科分类:
依托单位:哈尔滨工业大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:林德华,詹青,国宏哲,权威,侯莉,张雨豪,汪涛,高岩
关键词:
序列比对核酸序列分析
结项摘要

Along with the development of next generation sequencing technologies, the cost of whole genome sequencing drastically decreases. In the future, the genomes of new born babies will be sequenced after their birth, and the number of personal genomes will be explosively grows. This brings a new challenge on bioinformatics and algorithms which is how to use multiple personal genomes as reference to perform read mapping. It will cost in both space and time to tackle this problem by conventional read mapping approaches. In this project, based on the high similarities between different personal genomes, a multiple reference genome indexing approach with low space complexity will be proposed to reduce the space cost during read mapping. Furthermore, utilizing the multiple reference genomes index, a sequence alignment model will be proposed to effectively handle the mismatches, insertions and deletions during read mapping. Finally, a read mapping approach with low time complexity will be proposed by optimizing the sequence alignment model according to the characteristics of next generation sequencing data. This project will improve the performance of read mapping, and promote new development in bioinformatics theories.

随着新一代基因组测序技术的发展,测序成本逐渐降低,未来新生儿一出生即可接受测序服务,个人基因组数量将出现爆发性增长。这为生物信息学和算法科学提出了新的挑战,即如何以多个个人基因组为参考进行read映射。传统read映射方法解决此问题的空间和时间开销较高。本研究将首先基于个人基因组之间的高度相似性,建立具有低空间复杂度的多参考基因组索引,降低read映射过程中的空间开销。其次,本研究将提出面向多参考基因组索引的序列比对模型,有效解决read映射中出现的错配、插入、删除等各类情况。最后,本研究针对新一代测序数据的特点,对序列比对模型进行优化,提出具有较低时间复杂度的read映射方法。本研究将提升现有read映射方法的性能,并带动生物信息学相关理论的发展。

项目摘要

随着高通量基因组测序技术的快速发展和广泛应用,已完成测序的基因组数量正在呈现爆发式增长。大量基因组科学前沿研究已经不满足于将测序片段与单一参考基因组进行比对来进行重测序分析,而是渴望将测序片段与大量已知参考基因组进行比对,以获得更加精细的基因组序列分析结果。同时,伴随着基因组测序能力的快速增长,基因组测序片段的产生速度呈指数级提升,迫切需要高效的序列比对算法和系统实现更加快速基因组序列比对。这对生物信息学理论与技术的发展提出了重大挑战。.本项目主要针对当前基因组科学的发展需求,进行面向多参考基因组的基因组测序片段快速比对算法研究。本项目主要在以下四个方面进行了研究工作:1)面向多参考基因组的序列比对理论与算法;2)面向海量基因组序列的序列自索引快速构建理论与算法;3)面向第三代测序片段的快速比对算法;4)面向基因组结构变异的基因组长测序片段比对算法。通过本项目研究,共产生了五项具有创新性的基因组索引与测序片段快速比对算法:1)基于图结构索引的基因组序列比对算法deBGA;2)基于de Bruijn图路径分支编码的基因组自索引快速构建算法deBWT;3)基于区域哈希表的第三代测序片段快速比对算法rHAT;4)基于长近似种子和稀疏动态规划的超长测序片段比对算法LAMSA;5)面向结构变异的第三代测序片段快速过滤算法rMFilter。.这些算法构成了一个全新的面向多参考基因组进行基因测序片段比对的技术体系。这一技术体系完全支持当前主流测序平台,如Illumina HiSeq/MiSeq、PacBio SMRT、Oxford Nanopore等产生的第二、三代测序数据,并将当前主流基因组序列比对算法的速度提升了数倍至数十倍,有效解决了当前基因组分析中测序片段比对这一瓶颈问题。本项目的主要成果均在世界顶级生物信息学期刊《Bioinformatics》(SCI IF:5.766,中科院一区)发表(已发表四篇,一篇修改后录用),并在同行评议过程中获得国际同行的高度评价。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
4

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
5

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015

刘博的其他基金

批准号:51904233
批准年份:2019
资助金额:24.00
项目类别:青年科学基金项目
批准号:11774282
批准年份:2017
资助金额:62.00
项目类别:面上项目
批准号:81402496
批准年份:2014
资助金额:23.00
项目类别:青年科学基金项目
批准号:81200110
批准年份:2012
资助金额:23.00
项目类别:青年科学基金项目
批准号:81371103
批准年份:2013
资助金额:70.00
项目类别:面上项目
批准号:21072019
批准年份:2010
资助金额:35.00
项目类别:面上项目
批准号:21576070
批准年份:2015
资助金额:30.00
项目类别:面上项目
批准号:81070796
批准年份:2010
资助金额:32.00
项目类别:面上项目
批准号:21102034
批准年份:2011
资助金额:25.00
项目类别:青年科学基金项目
批准号:41672311
批准年份:2016
资助金额:62.00
项目类别:面上项目
批准号:81800618
批准年份:2018
资助金额:20.00
项目类别:青年科学基金项目
批准号:81673455
批准年份:2016
资助金额:50.00
项目类别:面上项目
批准号:31860722
批准年份:2018
资助金额:39.00
项目类别:地区科学基金项目
批准号:61704049
批准年份:2017
资助金额:20.00
项目类别:青年科学基金项目
批准号:81202398
批准年份:2012
资助金额:23.00
项目类别:青年科学基金项目
批准号:41301140
批准年份:2013
资助金额:23.00
项目类别:青年科学基金项目
批准号:40805014
批准年份:2008
资助金额:20.00
项目类别:青年科学基金项目
批准号:31560714
批准年份:2015
资助金额:41.00
项目类别:地区科学基金项目
批准号:31200539
批准年份:2012
资助金额:23.00
项目类别:青年科学基金项目
批准号:41802211
批准年份:2018
资助金额:24.00
项目类别:青年科学基金项目
批准号:31400182
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:31100110
批准年份:2011
资助金额:23.00
项目类别:青年科学基金项目
批准号:61601012
批准年份:2016
资助金额:19.00
项目类别:青年科学基金项目
批准号:61307086
批准年份:2013
资助金额:26.00
项目类别:青年科学基金项目
批准号:61702021
批准年份:2017
资助金额:24.00
项目类别:青年科学基金项目
批准号:81803077
批准年份:2018
资助金额:21.30
项目类别:青年科学基金项目
批准号:61675004
批准年份:2016
资助金额:65.00
项目类别:面上项目
批准号:51209200
批准年份:2012
资助金额:25.00
项目类别:青年科学基金项目
批准号:41802236
批准年份:2018
资助金额:26.00
项目类别:青年科学基金项目
批准号:21704098
批准年份:2017
资助金额:25.00
项目类别:青年科学基金项目
批准号:81902619
批准年份:2019
资助金额:21.00
项目类别:青年科学基金项目
批准号:71801130
批准年份:2018
资助金额:17.00
项目类别:青年科学基金项目
批准号:51308023
批准年份:2013
资助金额:25.00
项目类别:青年科学基金项目
批准号:31570448
批准年份:2015
资助金额:63.00
项目类别:面上项目
批准号:41702257
批准年份:2017
资助金额:25.00
项目类别:青年科学基金项目
批准号:20372044
批准年份:2003
资助金额:25.00
项目类别:面上项目

相似国自然基金

1

高通量DNA测序片段的拼接

批准号:30871393
批准年份:2008
负责人:陆祖宏
学科分类:C0608
资助金额:35.00
项目类别:面上项目
2

基于自组装参考基因组的高通量长读测序数据压缩和比对集成研究

批准号:61871272
批准年份:2018
负责人:朱泽轩
学科分类:F0124
资助金额:62.00
项目类别:面上项目
3

基于高通量测序数据多供体植物基因组结构变异识别方法研究

批准号:61402132
批准年份:2014
负责人:王春宇
学科分类:F0213
资助金额:24.00
项目类别:青年科学基金项目
4

肿瘤基因突变高通量测序检测游离DNA参考物质的研究

批准号:81601848
批准年份:2016
负责人:张瑞
学科分类:H2605
资助金额:18.00
项目类别:青年科学基金项目