基于长短读数结合的序列组装相关问题研究

基本信息
批准号:61772557
项目类别:面上项目
资助金额:64.00
负责人:潘毅
学科分类:
依托单位:中南大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:王晓晟,彭小清,罗军伟,张振,李伟隆,廖兴宇,刘莉娟,吴彬彬,唐丽
关键词:
短读数第三代测序技术长读数序列组装第二代测序技术
结项摘要

Obtaining the complete and accurate DNA sequence is the basis for understanding the inherent organization and process of life activities. Sequence assembly is to restore DNA sequence fragments (reads) to a complete DNA sequence. Although the long reads produced by the third generation sequencing technology can span most of the repetitive regions in the DNA sequence, the sequencing error rate is higher. The next generation sequencing technology produces short reads, but the sequencing error rate is lower. Therefore, the project will integrate the advantages of both short and long reads to solve the difficulties in sequence assembly. The project mainly includes five aspects: (1) this project will study the long read error correction method based on short reads; (2) this project will study how to extract paths from De Bruijn graph for constructing contigs; (3) this project will present scaffolding method based on alignment information between reads and contigs; (4) this project will present gap filling method to fill gaps in the scaffolds; (5) the project will use MapReduce to achieve sequence assembly algorithms. The study of this project will be useful for obtaining complete and accurate genome sequences.

获取完整和准确的DNA序列是理解生命活动内在组织和过程的基础。序列组装是将测序得到的DNA序列片段(读数/read)还原成一个完整的DNA序列。第三代测序技术所产生的长读数可以跨过DNA序列中大部分重复区,但是其测序错误率较高。第二代测序技术所产生的短读数虽然长度较短,但是测序错误率较低。因此,本项目将融合长短读数各自的优势,解决序列组装中的难点问题。本项目研究主要包括五个方面:(1)本项目拟利用短读数对长读数进行纠错;(2)本项目拟利用长读数指导如何从De Bruijn图中选择路径构建contig集合;(3)基于长短读数和contigs的比对信息,本项目拟设计高效的scaffolding方法;(4)本项目拟设计gap填充方法对scaffolds中的gap区域进行填充;(5)本项目拟利用MapReduce实现高效的序列组装相关算法。本项目的研究将为获取完整和准确的基因组序列提供帮助。

项目摘要

序列组装是将测序得到的DNA序列片段(读数/read)还原成一个完整的DNA序列,对理解生物体的生长、发育和疾病的产生有重要的意义。本项目针对第二代测序技术、第三代测序技术的特点,对序列组装相关问题进行了深入研究。在本项目支持下,本课题主要取得了以下成果:1.提出了基于短读数的长读数纠错方法,主要包括识别和纠正重叠区错误装配的方法;2.提出了基于邻接线性模型将多个Contig集合进行合并和分类优化的集成方法;3.提出了一系列scaffolding方法研究,充分利用了配对读数的比对特征和GC含量分布特性和路径扩展策略等;4. 针对二代测序数据中kmer频次、比对特性以及三代测序读数之间的Overlaps关系,提出了基因组序列重复区检测方法;5.开发了一系列序列组装方法。在本基金的资助下,本项目组共发表学术论文19篇,其中在Nucleic Acids Research、Bioinformatics、Briefings in Bioinformatics、IEEE/ACM Transactions on Computational Biology and Bioinformatics等上发表SCI期刊论文17篇。在生物信息学和生物医药国际大会(BIBM)、国际生物信息学研究及应用大会(ISBRA)等国际会议上发表学术论文2篇,获得授权国家发明专利2项,培养博士/硕士研究生共6人。本项目的实施对研究长短读数序列组装相关问题,并为生物学家进一步的基因组学研究提供了有价值的参考和关键的技术支撑。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
3

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

DOI:
发表时间:2020
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

DOI:10.11999/JEIT210095
发表时间:2021

潘毅的其他基金

批准号:21472082
批准年份:2014
资助金额:90.00
项目类别:面上项目
批准号:21772085
批准年份:2017
资助金额:64.00
项目类别:面上项目
批准号:11704303
批准年份:2017
资助金额:24.00
项目类别:青年科学基金项目
批准号:51108389
批准年份:2011
资助金额:23.00
项目类别:青年科学基金项目
批准号:20072015
批准年份:2000
资助金额:16.00
项目类别:面上项目
批准号:51878559
批准年份:2018
资助金额:60.00
项目类别:面上项目
批准号:31371034
批准年份:2013
资助金额:30.00
项目类别:面上项目
批准号:51303179
批准年份:2013
资助金额:25.00
项目类别:青年科学基金项目
批准号:20772056
批准年份:2007
资助金额:8.00
项目类别:面上项目
批准号:51309092
批准年份:2013
资助金额:25.00
项目类别:青年科学基金项目
批准号:61379108
批准年份:2013
资助金额:75.00
项目类别:面上项目
批准号:81173181
批准年份:2011
资助金额:57.00
项目类别:面上项目
批准号:31000462
批准年份:2010
资助金额:19.00
项目类别:青年科学基金项目

相似国自然基金

1

零和序列相关问题

批准号:10826026
批准年份:2008
负责人:庄举娟
学科分类:A0408
资助金额:3.00
项目类别:数学天元基金项目
2

基于统计特征和双端读数的scaffolding方法研究

批准号:61602156
批准年份:2016
负责人:罗军伟
学科分类:F0213
资助金额:20.00
项目类别:青年科学基金项目
3

代换序列的复杂度及相关问题

批准号:11626110
批准年份:2016
负责人:陈金
学科分类:A0204
资助金额:3.00
项目类别:数学天元基金项目
4

k-radius序列及相关组合问题的研究

批准号:11771419
批准年份:2017
负责人:张先得
学科分类:A0408
资助金额:48.00
项目类别:面上项目