多倍体单体型从头组装算法研究

基本信息
批准号:61772197
项目类别:面上项目
资助金额:63.00
负责人:谢民主
学科分类:
依托单位:湖南师范大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:姜涛,钟坚成,周建宇,熊袁鹏,叶云洋,彭哲也,周佩霞,唐紫珺,喻昕
关键词:
生物信息学单体型新一代测序技术DNA序列分析算法
结项摘要

Some economically important plants have more than two copies of each chromosome. Constructing the DNA sequence of each copy of chromosome by DNA sequencing, i.e. haplotype assembly, is valuable to crop improvement. Current algorithms of haplotype assembly for polyploids have to align the DNA reads to reference genomes and cannot be applied to the polyploids without known reference genomes. .The project focuses on algorithms of haplotype assembly for polyploids without known reference genomes based on DNA reads from multiple sequencing platforms. The project will use a De Bruijn graph to construct high reliable contigs from short reads with a low error rate, and use contig-based alignment, cluster analysis and machine learning to correct the sequencing errors of reads. Then local assemblies of the contigs and the related reads will be conducted via overlap-extension approaches. Based on the information provided by long reads, paired-end reads, local assemblies and contigs, we will propose haplotype assembly optimal models to deal with the challenge caused by the large and rich repeats of polyploid plant genomes and the fact that difference ratios varies much between different haplotype pairs. Furthermore, we will combine parameterized computation, dynamic programming, advanced graph algorithm and other algorithm designing techniques, design fast and effective algorithms to solve the optimal models, and construct the DNA sequence for each haplotype. Efficient and accurate algorithms of de novo haplotype assembly will prompt genome sequencing of polyploids.

一些重要经济作物的体细胞有多套染色体组,利用测序技术确定每套染色体的DNA序列,即单体型组装,对作物改良有重要意义。当前多倍体单体型组装算法需要把测序读段联配到参考基因组上,无法应用于参考基因组未知的多倍体。.本课题研究无需参考基因组序列、融合多平台测序数据的多倍体单体型从头组装算法。本课题将基于De Bruijn图在错误率低的短读段数据上构建可信度高的contig集,通过基于contig的联配,用聚类分析、机器学习等手段进行读段纠错;用重叠-扩展方式对contig及相关读段进行局部组装,在长读段、paired-end读段、局部组装和contig数据基础上针对多倍体植物基因组重复率高、各单体型对之间差异率明显不同的特征建立优化模型;结合参数计算、动态规划和高级图算法等技术设计快速有效求解算法,构建各单体型的DNA序列。高效精确的多倍体单体型从头组装算法将促进多倍体生物全基因组测序工程。

项目摘要

一些重要经济作物的体细胞有多套染色体组,利用测序技术确定每套染色体的DNA序列, 即单体型组装,对作物改良有重要意义。本课题主要研究无需参考基因组序列、融合多平台测序数据的多倍体单体型从头组装算法。本课题对各主流测序平台上异源多倍体基因组序列真实数据进行了各方面的统计分析,通过对序列数据特征的提取,设计出了能根据测序平台相关参数生成与真实数据有相同特征的模拟数据的生成器。提出基于拓扑结构和相关读段覆盖为依据的 contig 的可信度评价指标,设计基于De Bruijn图的contig组装算法。通过对各主流测序平台上异源多倍体基因组序列真实数据进行统计分析完成了序列数据特征的提取,对异源多倍体基因组序列的组装框架进行了初步的设计,提出了基于第二代测序技术的短序列对错误率较高的长序列进行纠错,利用纠错后的长序列进行组装的算法。利用近年来提出的一种有效的高精度scaffolding方法光学作图(Optimal mapping),本项目提出了一个新颖的光学作图scaffolding方法OMGS(Optical Map-based Genome Scaffolding) ,一次能接收多个optimal map,设计了高效的算法求解scaffolding中的连续性和正确性的优化问题。项目组还对微生物-疾病互作、lncRNA-蛋白质异构体互作、蛋白质异构体功能预测、等相关问题进行了研究,利用已知的疾病-微生物关联网络,通过集成疾病相似性和微生物相似性,提出了二部图推荐算法预测新的疾病-微生物关联;根据基因序列和表达数据提出了lncRNA-蛋白质异构体交互预测、蛋白质异构体功能预测的深度学习方法。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
3

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
4

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
5

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016

谢民主的其他基金

相似国自然基金

1

ChIP-Seq数据的从头模体发现与RNA-Seq短序的从头组装算法研究

批准号:61572358
批准年份:2015
负责人:张少强
学科分类:F0213
资助金额:63.00
项目类别:面上项目
2

基于新一代测序技术的K单体型组装算法研究

批准号:61363035
批准年份:2013
负责人:吴璟莉
学科分类:F0213
资助金额:45.00
项目类别:地区科学基金项目
3

新一代测序技术下单体型组装问题计算模型和算法研究

批准号:61070145
批准年份:2010
负责人:谢民主
学科分类:F0213
资助金额:32.00
项目类别:面上项目
4

单体型问题及其算法研究

批准号:60970085
批准年份:2009
负责人:徐云
学科分类:F0213
资助金额:30.00
项目类别:面上项目