Since 2009, Hi-C has been applied to many model organisms including human, mouse and fly and revealed characteristics including compartments,TADs(topologically associated domains) and loop of chromosome structure. However, current analysis protocol of Hi-C data is still not reliable to adapt to the nature of Hi-C experiments, especially in the aspects of data correction, feature identification and sample comparison. We plan to start with raw Hi-C count matrix and apply a statistical model by taking into account both the experiment bias and biological features. In other words, the observed Hi-C counts are outcome of all these effects as variables. The model will be applied to multiple Hi-C samples and identify structural features in quantitatively way so that they can be compared and changes can be deduced directly by the modeling. As an verification and application, the model will be applied to fly Kc167 cells in both wild type and CAP-H2 knockdown samples to distinguish the observed diminishing compartmentation in the latter sample.
Hi-C技术自2009年出现以来,在人、鼠和果蝇等模式生物中获得了染色体三维结构的全基因组信息,发现区隔、结构域和位点互作等多层次染色体结构特征。快速发展中的Hi-C数据分析方法在数据修正、特征鉴别、样本比较等多个环节尚不完善,且往往被割裂开来。我们以Hi-C作用矩阵为对象,通过快速生成数据基本特征谱对数据质量进行全面且严格的量化评估。Hi-C观察到的计数本质上是实验bias和区隔、结构域及位点互作等多层次结构特征作为随机变量共同作用的结果,因此我们构建一个将以上因素同时纳入的统计模型,并应用到本项目将产生的果蝇高质量、多重复且较已有数据更高分辨率的Hi-C样本中,识别单独样本结构特征的同时,对不同样本的差别进行量化比较。基于我们已观察到的果蝇细胞的CAP-H2沉默样本中区隔显著减弱现象,我们将产生高质量Hi-C数据并用该模型分析,并结合其它表观遗传数据分析染色体结构变化规律。
作为遗传信息的载体,染色体的组成、结构和功能一直是现代遗传学的重要研究对象。Hi-C技术自2009年出现以来,在人、鼠和果蝇等模式生物中获得了染色体三维结构的全基因组信息,发现了染色体区隔(compartment)、结构域(TAD)和位点互作(loop)等多层次染色体结构特征。快速发展中的Hi-C数据分析方法在特征鉴别、样本比较等多个环节尚不完善。本项目中,我们开发了Hi-C数据处理流程工具hictools,并以非洲爪蟾这一两栖类模式生物的胚胎发育过程为研究对象,系统地揭示非洲爪蟾胚胎发育过程中染色质三维构象动态变化及其建立的调控机制,并对热带爪蟾基因组进行了重新组装。通过对compartment、TAD和loop在同一框架下的系统比较,发现发育过程中TAD的建立早于compartment和loop的出现,且不依赖于受精卵的转录激活。对compartment,我们从整体强度和基因组区域角度全面分析了胚胎发育过程中区室的动态建立过程,清晰刻画了这一过程。并且,我们构建的compartment分析框架和结果较现有其它compartment动态分析方式有显著优势,可广泛用于多样本的数据比较。此外,不同组织的比较表明,不同于以往的研究中发现的哺乳动物不同组织细胞中TAD结构具有较高的保守性,爪蟾大脑、肝脏和精子中的TAD结构差异巨大。在此基础上,我们开发了compartment精细结构的鉴别工具MOSAIC,该方法能准确解释comaprtment的动态变化,并且能很好的和转录调控联系起来。同时,鉴于现有实验方法在鉴别loop上敏感性的不足,我们运用深度学习工具开发了染色质开放区之间互作的预测工具,结果显示优于现有相关方法,并且能为疾病相关SNP的转录调控机制提供染色体结构上的支持。通过本项目四年来的工作,我们开发了较系统的、多层次的染色体数据处理流程、高级结构鉴别工具和预测方法,并通过和实验工作者合作,成功应用到非洲爪蟾等具体对象的分析中,揭示了染色体高级结构在重要生物过程中的动态变化规律。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
转录组与代谢联合解析红花槭叶片中青素苷变化机制
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
PI3K-AKT-mTOR通路对骨肉瘤细胞顺铂耐药性的影响及其机制
单细胞数据的多尺度统计建模与分析
单细胞数据的多尺度统计建模与分析
大气边界层湍流的多尺度统计特征及其统计建模
小空间尺度下‘零膨胀’时空数据的统计建模