Traditionally, the studies of complex disease mainly focus on the identification of disease genes and the study of the molecular mechanism of disease genes. However, sequence variations on regulatory elements in genome may cause alterations in target gene transcription, which may also cause diseases. Current studies have found that majorities of disease-associated SNPs are actually located in or closely linked to regulatory elements, and many of them are located in intergenic regions, indicating they may be associated with distal regulatory elements (DREs). Since the mechanisms of distal regulation are complex, it is challenging to identify the target genes of DREs, making it difficult to explain the causal roles of the intergenic disease-associated SNPs. In our previous studies, we have developed a novel method that combines the data generated by Hi-C technology (a technology that captures chromosome conformation information by high-throughput sequencing) and comparative genomics data to predict the target genes of DREs. Therefore, in this study we aim to use the predicted target genes of DREs to analyze the association of DRE's sequence variation with disease. In addition, we plan to develop bioinformatics models to predict the disease phenotypes of DREs from the predicted target genes. Finally, we plan to extend the models to predict the biological processes in which a DRE may be involved, and classify DREs based on their involved biological processes. Out study will be of importance to the understanding of not only the molecular mechanisms of disease association caused by the sequence variation on DREs, but also the regulatory mechanisms of DREs in cell development.
传统上,复杂疾病的研究主要集中在致病基因的鉴定和其分子机制的研究。但基因组中调控元件的序列变异可导致靶基因的转录异常,也可以导致复杂疾病的发生。事实上,大多数与疾病关联的SNP都位于调控元件上,或与其紧密连锁,而其中有很多处于基因间区域,可能与远程调控元件有关。但由于远程调控模式的复杂性,远程调控元件的靶基因很难通过实验鉴定,这导致解释这些SNP的可能致病机制是一个难题。我们在前期的研究工作中开发了一基于染色体构象捕获Hi-C技术的数据和比较基因组数据预测远程调控元件靶基因的方法。在此基础上,本课题计划继续整合其他组学数据来预测远程调控元件的靶基因,并利用预测的靶基因来探索远程调控元件的序列变异与复杂疾病之间的关联,进而建立生物信息学模型来预测远程调控元件的疾病表型及其可能参与调控的生物通路。本课题的研究对于理解远程调控元件的致病机制及其在发育过程中的调控机制具有重要意义。
全基因组关联分析(GWAS)的研究结果表明,绝大多数与疾病关联的SNP都位于非编码区域,而其中大部分处于基因间区域(intergenic region, IGR)。如何解释这些基因间区域的疾病关联非编码SNP(disease associated SNPs, daSNPs)的可能致病机理是一个难题。在本课题中,我们对GWAS 数据库中的1,834个IGR daSNPs进行了分析,发现绝大部分IGR daSNPs都位于远程调控元件(DREs)上或在其附近区域(+-1kb),表明IGR daSNPs可能影响了DREs的调控功能。基于此,我们的假说认为这些 IGR daSNPs附近的DREs的靶基因可能包括了疾病基因,由于IGR daSNPs导致DREs调控功能异常,进而导致DREs所调控的疾病基因发生异常表达,并从而导致疾病的发生。为验证该假说,我们利用本课题开发的一个生物信息学方法—INTREPED,预测了IGR daSNPs附近的DREs的可能靶基因,并与daSNPs对应的疾病基因进行了相关分析。我们发现,在2,774 个IGR daSNP—疾病关系中,有753 (27.1%), 524 (18.9%), 823个的预测靶基因包含了疾病基因,显著富集疾病基因,或与疾病基因的功能相关。如果考虑到IGR daSNPs的紧密连锁的SNPs(LD SNPs),则上述数字会提高到1,168(42.1%), 1,004 (36.2%), and 1,504 (54.2%)。此外,我们还通过对公共数据库中eQTL数据的分析,发现IGR daSNPs与其预测靶基因中的疾病基因的表达显著关联,表明IGR daSNPs可以影响疾病基因的表达。我们还对一系列案例进行了细致分析,验证了以上假说的可能性。以上结果表明,IGR daSNPs与疾病的关联机制可能是通过影响DREs对疾病基因的调控功能所导致的。该成果对于IGR daSNPs的下游功能分析提供了具体的假说和研究思路,对于复杂疾病的机制研究有重要意义。本课题的研究成果发表于Nucleic Acids Research, Bioinformatics等国际期刊上。
{{i.achievement_title}}
数据更新时间:2023-05-31
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
跨社交网络用户对齐技术综述
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
疏勒河源高寒草甸土壤微生物生物量碳氮变化特征
城市轨道交通车站火灾情况下客流疏散能力评价
代数数论
不同群体调控元件序列变异对遗传疾病临床表型影响的研究
融合多种表型相似性和基因相似性的疾病关联基因预测方法
基于基因组水平的细胞色素P450基因农药响应元件的预测和验证
利用进化印迹鉴定水稻基因组的功能元件