Segmental duplications are hotbeds for genomic rearrangements and genic mutations. To better understand the human genome evolutionary history and explore treatments for human genetic diseases, it is necessary to do systematic comparison and analysis of segmental duplications in primate genomes. Current studies of segmental duplications are usually based on different versions of genome assemblies and derived from different detection methods. Thus it is hard to take a fair comparison between them. This project aims to improve the detection method of segmental duplications and construct a segmental duplication database for primate genomes. Afterwards, take a systematic comparison for all segmental duplications in primate genomes. The detailed research plan is as follows. (1) Improve the detection method of segmental duplications, and construct a graphic database for segmental duplications in primate genomes. (2) Compare and analyze segmental duplications in human and other primate genomes, and finally identify human specific segmental duplications that happened after the speciation. (3) Construct a genomic rearrangement model to analyze genomic rearrangements happened between segmental duplications in human and other primate genomes. Design an efficient algorithm to approximately compute the rearrangement distance between human and other primate genomes.
基因组中的重复片段是发生基因组重组和基因突变的热点区域。比较与分析基因组中的重复片段信息对深入理解人类基因组的进化历史和探索人类基因疾病的治疗方案都有着重要的指导意义。目前,有关重复片段的研究成果大都来自于不同版本的基因组序列和不同的检测方法,缺乏可比性。本项目从改进重复片段的检测方法入手,旨在建立一个统一的重复片段信息库,并对不同基因组的重复片段信息进行系统地比较与分析。具体研究内容包括:(1)改进重复片段的检测方法,建立一个图形化的重复片段信息库;(2)比较与分析人类和其它灵长类物种基因组中的重复片段信息,准确解析出人类在与其它灵长类物种分化后产生的特有重复片段;(3)建立合理的多基因组重复片段重组模型,并设计有效的算法来近似估计人类与其它灵长类物种间的进化距离。
基因组中的重复片段是发生基因组重组和基因突变的热点区域。比较与分析人类基因组与其它灵长类基因组中的重复片段对深入理解人类基因组的进化历史和探索人类基因疾病的治疗方案都有着重要的指导意义。目前,有关重复片段的研究成果大都来自于不同版本的基因组组装序列,且基于不同的检测方法,缺乏可比性。本项目基于申请人此前设计的重复片段检测算法SDquest对人类和猩猩基因组中的重复片段进行二次序列比对,从而解析出物种特有的重复片段子元素和共有的重复片段子元素,并首次将共有的重复片段进一步区分成继承自祖先基因组的或在物种分化后二次复制形成的。申请人还设计了多基因组重复片段的进化图模型,清晰的阐述了物种特有重复片段和共有重复片段之间错综复杂的关联。此外,基因组重组排序问题通常被用于近似估计物种间的进化距离。无向基因组的以为排序问题自1996年被证明为NP-难之后,研究者们一直致力于设计求解该问题的近似算法。从2014年到2020年,该问题的求解算法的近似度从2被陆续改进到了1.408。申请人在2020年设计了一个近似算法将近似度进一步改进到了1.375,该算法也是目前求解无向基因组移位排序问题的最好的近似算法。最后,基于多基因组重复片段比较与分析问题与宏基因组中多物种的分类问题高度相关,申请人还将研究拓展到宏基因组的物种分类问题中,并首次提出利用组装图来改善宏基因组的短序列分类。申请人设计了宏基因组分类算法3CAC刚发表数月,根据该算法实现的软件已被浏览108次,下载39次,充分说明了该研究的影响力。
{{i.achievement_title}}
数据更新时间:2023-05-31
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
物联网中区块链技术的应用与挑战
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
一种加权距离连续K中心选址问题求解方法
全基因组结构分析的组合问题与算法
基于片段重叠群的基因组片段填充问题研究
面向动态约束优化问题的进化算法:设计、分析与应用
对虾基因组简单重复序列的爆发与适应性进化研究