Genomic variations such as structural variations (SV) are widespread in human genomes and they may confer susceptibility to various diseases. Cancer genomes often have significantly more genomic variations, some of which may play important role in tumurigenesis. The breathtaking development of the high-throughput sequencing (HTS) technology has provided a highly efficient platform for studying genomic variations in human genomes, but it also brings great challenges for statistical analysis of the HTS data. Especially, due to the complexity of SVs, the short read length and various biases in the HTS data, current algorithms for detecting and analyzing SVs still have limited sensitivity and specificity. In this project, we will develop a set of robust statistical models and computational tools based on HTS data to comprehensively detect and characterize SVs in human genomes, especially in human cancer genomes. The models being developed will mainly be semi-parametric or Bayesian models. We will take full consideration of the biological knowledge whiling developing these models to make our methods fit better to the real situation. Software/packages will also be developed to make these algorithms easily accessible to other investigators. We will also apply these algorihtms to thousands of genomes seqeunced at The Cancer Genome Atlas (TCGA) and the International Cancer Genome Consortium (ICGC) to gain new knowledge about cancer genomes.
人类基因组中有包括结构变异在内的多种变异,它们对人类的健康有重大影响。癌基因组通常比正常基因组有更多的变异,其中一些可能对肿瘤生成起到了关键的作用。近年来,高通量测序技术的革命性突破为我们提供了一个高效的研究基因组变异的平台,但其带来的数据爆炸性增长对我们的统计计算分析能力提出了严峻的挑战。特别地,由于结构变异的复杂性及高通量测序数据读长太短及分布不均匀的缺点,目前探测结构变异算法在其准确度及灵敏度方面仍有很大的局限。在本项目中,我们将针对基于高通量测序数据研究和分析结构变异的一些问题展开研究,发展稳健的概率统计模型及高效的算法,并研究其对应的统计性质。我们将主要通过建立一些半参数模型或贝叶斯模型来解决这些问题。同时,我们将充分考虑所面临问题的具体情况以建立更加符合实际情况的模型。我们还将发展对应的统计软件包以方便其他学者使用,并会将这些算法应用到实际数据中以获取新的生物学知识。
本项目主要考虑发展利用高通量基因组测序数据,如全基因组测序及全外显子测序数据,探测拷贝数变异及结构变异的工具并利用结构变异研究癌基因组驱动变异。肿瘤目前已经成为中国乃至全球的首要死亡原因,癌基因组中常常存在大量的结构变异,结构变异的准确探测和深度分析对研究肿瘤的发生发展、对于研究肿瘤的治疗手段都有重要的作用。高通量测序技术的发展对于准确探测和研究结构变异提供了强大的技术平台。在本项目支持下,我们发展了一系列的探测结构变异和拷贝数变异的统计计算方法和工具,并开发了相应的软件或软件包,这些新的算法比已有算法的性能有显著的提高;其中一些算法,如BIC-seq2目前已经被很多研究包括发表于Science, Cell等顶级杂志的研究所才用。通过分析结构变异、拷贝数变异和其他类型的变异,我们研究了肝癌、肝内胆管癌和乳腺癌的驱动变异,如我们在肝内胆管癌中发现染色体不稳定是肿瘤发生发展的早期事件,可能是肿瘤异质性的主要原因之一。这些研究成果对于研究肿瘤的驱动变异乃至对肿瘤的精准治疗都有重要的意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
基于高通量测序数据多供体植物基因组结构变异识别方法研究
基于新一代高通量测序数据的若干统计方法学研究
基于配对及家系测序数据的基因组结构变异的识别
基于家系基因组测序数据的拷贝数变异检测方法研究