Third generation sequencing (TGS), such as PacBio single molecule real time (SMRT) and Oxford Nanopore, have several distinguishing characteristics, including long read length and unbiased sequencing. TGS has advantages in many genomics studies and has been widely applied into de novo genome assemblies and structural variants analysis. However, TGS reads have high-error sequencing rate (12-25%) and it brings a huge challenge for TST data analysis. To reduce their error of raw reads,no-hybrid error correction has been introduced to correct their errors, but the output rate of corrected reads is only 40-50% and the data loss issue seriously restricted the application range of corrected data. Based on our MECAT tools (published in Nature Methods), we plan to develop an reference-based high-rate correction strategy: an raw dataset should be split into many small datasets with high closeness relation according to reference location information of raw reads and noisy correction with high sensitivity and high output rate were processed in every small dataset. We also plan to develop some application interface for de novo assembly and structural variant analysis. Our research will improve the output rate of the corrected data and data integrity significantly, thus it will support a channel for applying next generation sequencing software to analyze TGS data and accelerated extensive application of TGS.
三代测序(单分子测序)具有读长长和无GC偏好性特征,近几年被广泛应用于基因组装和结构变异检测。然而三代测序高测序错误率(12-25%)给后期数据处理带来了巨大困难。为了降低测序错误率,三代测序采用自校正的方法校正三代测序数据,然而目前方法的校正数据产出率只有40-50%,大量数据损失严重制约了校正数据的应用范围。在我们开发MECAT软件包(已发表Nature Methods)的基础上,本项目试图采用无校正组装contigs或已发表基因组作为参考基因组,利用三代数据参考基因组比对位置信息,将原始数据划分成多个关系紧密的小数据集,在小数据集中实现高灵敏度和高产出率的自校正过程,从而建立基因组启发式三代测序校正方法;并建立校正数据应用于基因组组装和结构变异检测应用接口。我们的研究可以大幅提高校正数据的产出率和数据完整度,为二代测序软件应用于三代测序数据分析提供通道,从而加速三代测序应用。
三代测序(Nanopore和PacBio)具有读长长和无GC偏好性特征,近几年被广泛应用于基因组研究。然而三代测序高测序错误率(7-25%)给后期数据处理带来了巨大困难。本课题组按照研究计划中的研究内容和技术路线展开了研究,取得了较好的研究成果:1)针对三代测序序列比对和校正模型不足,我们先后建立了融入剪切读长的参考基因组比对模型、基于读长匹配完整度的数据分类规则及划分规则和高校三代测序序列校正参数模型;2)针对三代测序Nanopore测序错误分布广泛且局部错误率高的校正问题,在已构建上述三个模型基础上,我们提出了Nanopore渐进式校正方法和渐进式组装方法,并且开发了Nanopore高效校正组装软件(NECAT),该研究成果可以将99%高错误区域校正恢复,基因组完整性提高2倍以上。3)针对高阶三维基因组Pore-C文库Nanopore测序堵孔问题,我们发现DNA交联了肽段造成了Nanopore测序堵孔,从而提出了两次酶解和混合酶酶解方案解决交联肽段过长问题,实现高通量Pore-C测序技术(HiPore-C),并通过深入地生物信息分析揭示了三维结构单分子拓扑特征,与此同时,应用HiPore-C高阶互作信息,我们建立了融入Pore-C高维3D信息的单倍型基因组组装方法,使单倍型基因组达到染色体级别;4)针对模式生物DNA-6mA图谱解析不足问题,我们广泛下载了多个模式生物的三代测序基因组数据,解析了模式生物DNA-6mA图谱特征及构建模式生物DNA-6mA数据库(MRM);5)针对新冠康复期病人不稳定情况,我们构建康复期病人单细胞图谱,提示新冠患者出院后仍然是脆弱的,需要加强对康复期患者的医学观察,使治疗效果得到进一步巩固,该研究成果被广泛报道。本课题组共发表了学术论文7篇,其中JCR一区论文4篇,发表论文主要包括Nature Communications(2篇)、Cell Discovery,Horticulture Research,BMC Genomics,Frontier in Genetics,Scientific Report等国际刊物,项目培养博士研究生1人和硕士研究生3人。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于被动变阻尼装置高层结构风振控制效果对比分析
基于LS-SVM香梨可溶性糖的近红外光谱快速检测
基于改进LinkNet的寒旱区遥感图像河流识别方法
基于文献计量学和社会网络分析的国内高血压病中医学术团队研究
萃取过程中微观到宏观的多尺度超分子组装 --离子液体的特异性功能
基于三代测序校正序列的基因组结构变异检测方法研究
基于三代测序数据的基因组结构变异识别与评价方法研究
复杂基因组的三代测序技术组装算法和软件研发
基于三代测序全长转录组的特异性Isoform识别方法研究及特征分析