Acquiring genome sequence by de novo sequence assembly tool is the foundation of genomics research. Scaffolding is the key step of de novo sequence assembly which infers the orientations and order of contigs, scaffolding is capable of producing more continuous and complete assembly results, how to develop efficient and correct scaffolding method is an important issue to be resolved. This project will be implemented based on mining and analyzing statistical characters of paired reads. Firstly, this project identifies the linking errors and categories based on the difference about characteristics of paired reads between two adjacent sub-regions in one contig. Secondly, based on the distribution of paired reads between two contigs, this project presents a more precise method to construct correlation graph of contigs. Finally, this project introduces one algorithm for partitioning correlation graph of contigs to reduce computing cost in the following steps, and designs optimization model and algorithm to determine the orientations and order of all contigs. This research is useful to get more complete and correct genome sequence, and will be helpful to understand the organization and process of life activities.
通过从头序列组装方法获得基因组序列是基因组学研究的基础。Scaffolding是从头序列组装中的关键步骤,它推断contigs之间的方向和顺序关系,能够使组装结果更加连续和完整,因此如何设计高效准确的scaffolding方法是需要解决的重要问题。本项目将通过挖掘和分析双端读数的统计特征对scaffolding方法展开研究。首先,基于同一contig相邻子区域中双端读数的多种特征变化,识别是否发生连接错误以及错误类型。其次,基于两个contigs之间相关双端读数的分布特征,提出一种更准确的contigs关联图构建方法。最后,通过对contigs关联图进行划分以减少后续的运算规模,并设计优化模型和算法确定contigs之间的方向和顺序关系。本项目的研究将为获取完整和准确的基因组序列,以及理解生命活动的内在组织和过程提供帮助。
获取完整的基因组序列是基因组学研究的基础。现有的基因组测序技术不能直接获得完整的基因组序列,而是得到一些序列片段,即读数(read)。从头序列组装(de novo assembly)是在没有参考信息的情况下,研究如何利用读数恢复出完整的基因组序列。Scaffolding是序列组装中的一个重要步骤,它可以使序列组装结果更加连续和完整,这有助于后续基因识别,基因组比对,结构变异检测等研究,是从头序列组装研究中的热点之一。本项目重点研究如何利用读数和contigs之间的比对特征设计高效准确的scaffolding方法。本项目首先通过分析同一contig 中相邻子区域上双端读数insert size和GC含量特征的变化,利用统计学方法研究设计了一种新的contigs错误检测和纠错方法。其次,本项目基于两个contigs之间能够比对上的双端读数insert size分布变化,确定scaffold图中一条边是否添加以及权重大小,并利用迭代策略和线性规划的方法进一步消除scaffold图中的冲突,进而提出了一种基于scaffold图优化的scaffolding方法。然后,本项目研究分析长读数和contigs之间的比对特征,设计了一种识别重复区contigs的方法,并提出了一种基于长读数和contigs分类的scaffolding方法。最后,本项目充分分析长短读数的各自优势和劣势,研究设计了一种基于长短读数结合的scaffolding方法。总之,该项目针对序列组装中的scaffolding方法进行了深入的研究,在理论与方法上取得了较好的研究成果,提出了scaffolding研究的新思路与新方法。
{{i.achievement_title}}
数据更新时间:2023-05-31
端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响
栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究
气载放射性碘采样测量方法研究进展
基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制
基于细粒度词表示的命名实体识别研究
基于过程状态特征和广义推断的统计过程控制方法研究
基于虚拟多读数头的位移传感器误差自动校准新方法及其特征参数辨识模型的研究
基于序列特征和统计判别方法发展细菌必需基因识别算法及软件
基于图像特征融合和统计决策的人脸特征点定位