基于三代测序校正序列的基因组结构变异检测方法研究

基本信息
批准号:31701146
项目类别:青年科学基金项目
资助金额:24.00
负责人:陈颖
学科分类:
依托单位:中山大学
批准年份:2017
结题年份:2020
起止时间:2018-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:李征,王卓,唐心皇,郑伟,詹都娜
关键词:
结构变异序列剪切基因组大数据基因组比对
结项摘要

Identifying genomic structural variants is one of the most important topics in genomics. Reads from third generation sequencing (TGS) has advantages of long read length (14kbp) and lacks of GC-content bias. These two advantages make it possible to detecting big structural genomic variants. Current genomic structural detecting tools based on TGS all start from raw reads that have high error rate (15%). They find variant regions by reference mapping and then detect variants by local assembly. Due to the high sequencing error rate in TGS reads, the current detecting tools are inefficent and inaccurate. To addess these issues, this project develops a novel genomic structural variants detection pipeline that is based on corrected TGS reads (99%). The new pipeline consists of a reference mapping model that is capable of identifying splicing reads and a fast and accurate structural variants detecting method. Starting from high quality corrected reads, we can significantly improve the sensitivity of refernece mapping, find the variant locations quickly and reduce the number of false positives, which lead to higher detecting accuracy and speed, and provide a new method for reference and technical support for genomic studies.

基因组结构变异检测是基因组学研究的重要内容,三代测序数据具有读长长(14kbp)和无GC扩增偏好性等优点,这些优点使得检测基因组大结构变异成为可能。目前基于三代测序数据的基因组结构变异检测软件均从高测序错误率(15%)的原始序列出发,通过参考基因组比对发现变异区域和局部组装检测结构变异。三代测序数据的高测序错误率,使得目前检测软件的速度和精度都很低。针对上述问题,本项目在我们已开发高效三代测序校正方法和快速参考基因组比对方法基础上,建立基于已校正高精度(99%)数据的,融入可识别剪切序列的参考基因组比对算法和快速精确的结构变异检测方法。利用高质量的校正数据可显著提高参考基因组比对精度,快速定位候选变异区域,同时减少假阳性的出现,从而大大提高基因组结构变异检测的精度和速度,为基因组疾病的检测和预防提供新的方法参考和技术支持。

项目摘要

在本项目的资助下,我们取得了四项研究成果。首先,我们开发了用于Nanopore测序序列的纠错和从头组装工具NECAT,旨在克服Nanopore测序序列中的复杂错误。该研究提出了一种自适应的候选支撑序列和两步渐进校正方法,可以快速精确地校正Nanopore测序序列。NECAT在纠错和从头组装方面均有很好的表现。NECAT组装35X的人类基因组数据仅需8122核时,将拼接结果的NG50提升2.47倍。此外,NECAT组装的人类WERI细胞系基因组,其NG50达到22Mbp。实验结果同样表明NECAT拼接的高质量基因组可以显著减少基因组结构变异检测中的假阳性。该研究成果发表在Nature Communication上。其次,我们开发了一套用于分析和评估基因组结构变异检测结果的流程。该流程结合两个比对工具和五种结构变异检测工具,对酵母的来自不同测序平台的六个数据集上的检测结果进行评估。这个流程为我们后续开发检测人类基因组结构变异算法提供了精度评估的参考。此成果发表在杂志Frontiers in Genetics上。第三,为减少基因组中6ma事件检测的假阳性,我们提出了一种称为MASQC的方法,该方法用二代测序数据来辅助三代测序数据,在无需全基因组扩增(WGA)的前提下高效检测出6ma事件。我们在两个真核生物基因组以及六个细菌基因组上进行了实验,结果表明MASQC能够有效抑制假阳性。此项研究成果发表在杂志Frontiers in Genetics上。最后,为发现6mA DNA修饰在野草莓中的分布模式及其潜在功能,我们通过第三代测序技术来分析F. vesca基因组中的6mA概况。结果表明,6mA修饰位点广泛存在于野草莓的基因组上。6mA的分布模式在长的非编码区域与蛋白质编码区域中显著不同。6mA修饰影响了基因转录,并且对基因表达呈正相关关系。我们通过计算和实验手段对上述结论进行了验证。这个实验为F. vesca中的DNA修饰提供了新的观点。这项成果已发表在杂志Frontiers in Genetics上。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
4

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

DOI:10.11999/JEIT210095
发表时间:2021
5

桂林岩溶石山青冈群落植物功能性状的种间和种内变异研究

桂林岩溶石山青冈群落植物功能性状的种间和种内变异研究

DOI:10.5846/stxb202009292521
发表时间:2021

陈颖的其他基金

批准号:81403171
批准年份:2014
资助金额:23.00
项目类别:青年科学基金项目
批准号:61201112
批准年份:2012
资助金额:24.00
项目类别:青年科学基金项目
批准号:39470593
批准年份:1994
资助金额:7.00
项目类别:面上项目
批准号:51408102
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:81702274
批准年份:2017
资助金额:19.00
项目类别:青年科学基金项目
批准号:51876045
批准年份:2018
资助金额:63.00
项目类别:面上项目
批准号:81703351
批准年份:2017
资助金额:20.00
项目类别:青年科学基金项目
批准号:51376050
批准年份:2013
资助金额:100.00
项目类别:面上项目
批准号:81800899
批准年份:2018
资助金额:22.00
项目类别:青年科学基金项目
批准号:31770674
批准年份:2017
资助金额:58.00
项目类别:面上项目
批准号:61503014
批准年份:2015
资助金额:19.00
项目类别:青年科学基金项目
批准号:81170284
批准年份:2011
资助金额:60.00
项目类别:面上项目
批准号:81600601
批准年份:2016
资助金额:19.00
项目类别:青年科学基金项目
批准号:11605163
批准年份:2016
资助金额:22.00
项目类别:青年科学基金项目
批准号:11601168
批准年份:2016
资助金额:19.00
项目类别:青年科学基金项目
批准号:31601036
批准年份:2016
资助金额:19.00
项目类别:青年科学基金项目
批准号:31471039
批准年份:2014
资助金额:90.00
项目类别:面上项目
批准号:31071552
批准年份:2010
资助金额:26.00
项目类别:面上项目
批准号:81770662
批准年份:2017
资助金额:66.00
项目类别:面上项目
批准号:10847129
批准年份:2008
资助金额:2.00
项目类别:专项基金项目
批准号:81041044
批准年份:2010
资助金额:10.00
项目类别:专项基金项目
批准号:81100465
批准年份:2011
资助金额:22.00
项目类别:青年科学基金项目
批准号:81200704
批准年份:2012
资助金额:23.00
项目类别:青年科学基金项目
批准号:51877115
批准年份:2018
资助金额:66.00
项目类别:面上项目
批准号:31871724
批准年份:2018
资助金额:60.00
项目类别:面上项目
批准号:31771122
批准年份:2017
资助金额:63.00
项目类别:面上项目
批准号:50876022
批准年份:2008
资助金额:40.00
项目类别:面上项目
批准号:51477081
批准年份:2014
资助金额:75.00
项目类别:面上项目
批准号:51501066
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目
批准号:31200519
批准年份:2012
资助金额:23.00
项目类别:青年科学基金项目
批准号:30901776
批准年份:2009
资助金额:20.00
项目类别:青年科学基金项目
批准号:51277104
批准年份:2012
资助金额:82.00
项目类别:面上项目
批准号:81302250
批准年份:2013
资助金额:23.00
项目类别:青年科学基金项目
批准号:31271831
批准年份:2012
资助金额:85.00
项目类别:面上项目
批准号:21605007
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:81801358
批准年份:2018
资助金额:21.00
项目类别:青年科学基金项目
批准号:11902292
批准年份:2019
资助金额:27.00
项目类别:青年科学基金项目
批准号:61003115
批准年份:2010
资助金额:20.00
项目类别:青年科学基金项目
批准号:50807026
批准年份:2008
资助金额:20.00
项目类别:青年科学基金项目
批准号:41662019
批准年份:2016
资助金额:34.00
项目类别:地区科学基金项目
批准号:81200828
批准年份:2012
资助金额:23.00
项目类别:青年科学基金项目
批准号:60701002
批准年份:2007
资助金额:23.00
项目类别:青年科学基金项目
批准号:30971211
批准年份:2009
资助金额:32.00
项目类别:面上项目

相似国自然基金

1

基于三代测序数据的基因组结构变异识别与评价方法研究

批准号:61902094
批准年份:2019
负责人:朱晓
学科分类:F0213
资助金额:26.00
项目类别:青年科学基金项目
2

基因组启发式三代测序校正方法研究及应用

批准号:31871326
批准年份:2018
负责人:肖传乐
学科分类:C0608
资助金额:59.00
项目类别:面上项目
3

基于Nanopore测序和多源数据融合策略的基因组大型结构变异检测方法研究

批准号:62002388
批准年份:2020
负责人:廖兴宇
学科分类:F0213
资助金额:16.00
项目类别:青年科学基金项目
4

基于家系基因组测序数据的拷贝数变异检测方法研究

批准号:31701147
批准年份:2017
负责人:刘永壮
学科分类:C0608
资助金额:21.00
项目类别:青年科学基金项目