基于统计特征和双端读数的scaffolding方法研究

基本信息
批准号:61602156
项目类别:青年科学基金项目
资助金额:20.00
负责人:罗军伟
学科分类:
依托单位:河南理工大学
批准年份:2016
结题年份:2019
起止时间:2017-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:薛霄,刘志中,王俊峰,张霄宏,刘东华,孙浩,扣彦敏,施曼
关键词:
双端读数统计特征scaffolding方法序列组装
结项摘要

Acquiring genome sequence by de novo sequence assembly tool is the foundation of genomics research. Scaffolding is the key step of de novo sequence assembly which infers the orientations and order of contigs, scaffolding is capable of producing more continuous and complete assembly results, how to develop efficient and correct scaffolding method is an important issue to be resolved. This project will be implemented based on mining and analyzing statistical characters of paired reads. Firstly, this project identifies the linking errors and categories based on the difference about characteristics of paired reads between two adjacent sub-regions in one contig. Secondly, based on the distribution of paired reads between two contigs, this project presents a more precise method to construct correlation graph of contigs. Finally, this project introduces one algorithm for partitioning correlation graph of contigs to reduce computing cost in the following steps, and designs optimization model and algorithm to determine the orientations and order of all contigs. This research is useful to get more complete and correct genome sequence, and will be helpful to understand the organization and process of life activities.

通过从头序列组装方法获得基因组序列是基因组学研究的基础。Scaffolding是从头序列组装中的关键步骤,它推断contigs之间的方向和顺序关系,能够使组装结果更加连续和完整,因此如何设计高效准确的scaffolding方法是需要解决的重要问题。本项目将通过挖掘和分析双端读数的统计特征对scaffolding方法展开研究。首先,基于同一contig相邻子区域中双端读数的多种特征变化,识别是否发生连接错误以及错误类型。其次,基于两个contigs之间相关双端读数的分布特征,提出一种更准确的contigs关联图构建方法。最后,通过对contigs关联图进行划分以减少后续的运算规模,并设计优化模型和算法确定contigs之间的方向和顺序关系。本项目的研究将为获取完整和准确的基因组序列,以及理解生命活动的内在组织和过程提供帮助。

项目摘要

获取完整的基因组序列是基因组学研究的基础。现有的基因组测序技术不能直接获得完整的基因组序列,而是得到一些序列片段,即读数(read)。从头序列组装(de novo assembly)是在没有参考信息的情况下,研究如何利用读数恢复出完整的基因组序列。Scaffolding是序列组装中的一个重要步骤,它可以使序列组装结果更加连续和完整,这有助于后续基因识别,基因组比对,结构变异检测等研究,是从头序列组装研究中的热点之一。本项目重点研究如何利用读数和contigs之间的比对特征设计高效准确的scaffolding方法。本项目首先通过分析同一contig 中相邻子区域上双端读数insert size和GC含量特征的变化,利用统计学方法研究设计了一种新的contigs错误检测和纠错方法。其次,本项目基于两个contigs之间能够比对上的双端读数insert size分布变化,确定scaffold图中一条边是否添加以及权重大小,并利用迭代策略和线性规划的方法进一步消除scaffold图中的冲突,进而提出了一种基于scaffold图优化的scaffolding方法。然后,本项目研究分析长读数和contigs之间的比对特征,设计了一种识别重复区contigs的方法,并提出了一种基于长读数和contigs分类的scaffolding方法。最后,本项目充分分析长短读数的各自优势和劣势,研究设计了一种基于长短读数结合的scaffolding方法。总之,该项目针对序列组装中的scaffolding方法进行了深入的研究,在理论与方法上取得了较好的研究成果,提出了scaffolding研究的新思路与新方法。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

DOI:
发表时间:2020
2

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

DOI:10.3969/j.issn.1002-0268.2020.03.007
发表时间:2020
3

气载放射性碘采样测量方法研究进展

气载放射性碘采样测量方法研究进展

DOI:
发表时间:2020
4

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

DOI:
发表时间:2018
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

罗军伟的其他基金

相似国自然基金

1

基于过程状态特征和广义推断的统计过程控制方法研究

批准号:71672006
批准年份:2016
负责人:杨军
学科分类:G0108
资助金额:48.00
项目类别:面上项目
2

基于虚拟多读数头的位移传感器误差自动校准新方法及其特征参数辨识模型的研究

批准号:51275551
批准年份:2012
负责人:王先全
学科分类:E0511
资助金额:80.00
项目类别:面上项目
3

基于序列特征和统计判别方法发展细菌必需基因识别算法及软件

批准号:60801058
批准年份:2008
负责人:郭锋彪
学科分类:F0124
资助金额:16.00
项目类别:青年科学基金项目
4

基于图像特征融合和统计决策的人脸特征点定位

批准号:61002051
批准年份:2010
负责人:胡佳妮
学科分类:F0116
资助金额:18.00
项目类别:青年科学基金项目