Recently, extensive studies have shown that genomic structural variation (SV) is involved in various human genetic disorders. As a key technique in precision medicine, SV detection has been proven to be one of the most efficient way to screen candidate genes related to diseases. However, current SV detection algorithms are far from being perfect and have limits in terms of low frequency and heterozygous SVs, especially for those adjacent to repetitive regions. In this study, we aim at developing new computational algorithms for identifying SVs associated with repetitive sequences and recognizing their precise breakpoints, by employing machine learning and statistical approaches. We will focus on the detection of SVs from paired and family trios data, and we will employ a multi-signal based strategy to build a sophisticated statistical model to estimate heterozygosity rate and to filter false positives, which will help detect de novo SVs and homozygous deletion variants from personal genomes with inherited diseases. In addition, we will set up a distributed system for SV detection and annotation, and using this platform we will explore SV patterns in human personal genomes. This study will facilitate the discovery of SVs and susceptibility genes present in our genomes and change our perspective on DNA structural variation and human disease.
目前,越来越多的研究表明基因组结构变异与人类各种复杂性状疾病紧密相关。作为精准医学研究中的核心关键技术,基因组结构变异的检测已成为筛选疾病相关基因最迅速和有效的方法之一。然而,现有的基于群体基因组测序数据的结构变异挖掘算法远未成熟,尤其是缺乏对低频和重复区域结构变异的检测能力。本研究针对结构变异挖掘中的关键问题,如结构变异中断点的精准定位和重复序列区域附近的结构变异识别,提出新的计算方法,建立较为完善的统计学模型及质量评估标准,以便快速、准确的从海量数据中挖掘出基因组结构变异。此外,将重点关注适合配对数据及家系数据的结构变异检测技术,建立多信号整合的统计学方法及杂合度估算模型,实现对肿瘤及遗传病家系数据中新生结构变异及纯合缺失变异的自动化处理流程。本项目的研究成果将我们为深入理解复杂性状疾病的分子机制、鉴定易感基因和认识遗传变异和疾病表型的关系提供重要的工具。
目前,越来越多的研究表明基因组结构变异与人类各种复杂性状疾病紧密相关。作为精准医学研究中的核心关键技术,基因组结构变异的检测已成为筛选疾病相关基因最迅速和有效的方法之一。然而,现有的基于群体基因组测序数据的结构变异挖掘算法远未成熟,尤其是缺乏对低频和重复区域结构变异的检测能力。我们针对结构变异挖掘中的关键问题,提出新的计算方法,建立较为完善的统计学模型及质量评估标准,以便快速、准确的从海量数据中挖掘和注释基因组结构变异。通过构建重叠群直接连接关系图,在配对连接信息的监督下拓扑路径。通过建立拓扑路径延伸及筛选的贝叶斯模型,显著提升对由串联重复导致的基因组结构变异的识别效率。此外,我们还将此方法用于多项基因组数据分析项目中。受本项目资助,共发表标注SCI论文7篇(Cell, Nature Communications, Genome Medicine, Nucleic Acids Res等)。本项目的研究成果将我们为深入理解复杂性状疾病的分子机制、鉴定易感基因和认识遗传变异和疾病表型的关系提供重要的工具。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
论大数据环境对情报学发展的影响
基于SSVEP 直接脑控机器人方向和速度研究
桂林岩溶石山青冈群落植物功能性状的种间和种内变异研究
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
基于家系基因组测序数据的拷贝数变异检测方法研究
基于三代测序数据的基因组结构变异识别与评价方法研究
基于高通量测序数据多供体植物基因组结构变异识别方法研究
基于高通量测序数据研究基因组变异的统计问题