In recent years, the high-throughput next-generation sequencing (NGS) has revolutionized the study of genetics. Especially the ChIP-Seq and RNA-Seq technologies have been widely utilized in the study of DNA-protein interactions and the analysis of transcriptomes, respectively. In eukaryotes, the transcriptional regulation of a gene is usually mediated by the interactions of multiple collaborative protein regulators with their respective specific cis-regulatory elements (CRE). And the large number of transcription factor binding location data produced by ChIP-Seq technologies has provided an unprecedented opportunity to identify CREs in genomes. Nonetheless, how to effectively utilize the large volumes of ChIP-Seq data to identify the CREs of the transcription factors and co-factors in a whole genome is a challenging job. Besides, the RNA-Seq technologies produced a large number of short reads, which can be spliced into transcriptomes that are widely used to detect differential expressions of gene samples. The lack of algorithms satisfied by biologists for do novo assembling short reads is another urgent problem. Therefore, in this project, the novel algorithms will be proposed for prediction of CRE motifs of transcription factors and their cofactors by integrating large-scale ChIP-Seq datasets, and do novo assembly of RNA-Seq short reads, respectively.
近几年,高通量的新一代测序技术彻底改变了遗传学研究,特别是 ChIP-Seq技术对DNA与蛋白质交互作用和RNA-Seq测序技术对转录组的分析的研究。在真核生物中多个蛋白质调节因子共同与其对应的顺式调控元件相互作用介导一个基因的转录调控。而ChIP-Seq实验提供了大量的转录因子结合位置数据。这些越来越多的新数据为识别真核生物顺式调控元件提供了前所未有的机遇,但挑战是我们如何高效使用这些 ChIP-Seq数据来识别基因组范围所有转录因子及其合作的辅调节因子的顺式调控元件。另外RNA-Seq实验提供了大量的转录组短序列,其拼接成的转录组被广泛用于比较样品基因水平表达差异。但现在迫切的问题是至今仍缺少令生物学家满意的短序列从头组装算法。因此本项目将整合ChIP-Seq数据进行大规模转录因子及辅因子的顺式调控元件模体预测的算法设计,及基于RNA-Seq的转录组短序列从头组装算法设计。
基于新一代测序的高通量技术的开发使用,很大程度上改变了生物学家全基因组范围对大规模真核基因组表征顺式调控元件和通过转录组研究基因水平表达差异的方式。特别是为转录因子的顺式调控元件定位的染色质免疫共沉淀的高通量测序技术ChIP-Seq, 以及高通量的 RNA 测序技术RNA-Seq。本项目主要研究内容包括:(1)对某真核生物一个转录因子的 ChIP-Seq 数据集, 设计一个高效精确的模体发现算法工具,来预测该转录因子的顺式调控元件和模块;(2)针对不同生物体的 RNA-Seq 原始数据,尝试设计一套更加具有鲁棒性的从头转录组组装算法工具。针对第一项研究内容,项目组开发了一款超快的计算工具,命名为FisherMP,。该工具能够在一个大规模的ChIP-seq数据集中快速识别对应的转录因子及其辅调节因子的顺式调控元件。该算法:(1)能够在大量相对较长(长度大约与顺式调控模块的长度相当,约3000个碱基)的结合峰序列集合快速运行;(2)既能够识别出ChIP的转录因子的占大多数的顺式调控元件,也能够识别协同合作转录因子的其它顺式调控元件;(3)能够自动决定所识别的模体长度;(4)该算法是并行算法,运行速度是目前已知工具中最快的。为了整合所有预测的模体,项目组开发了模体聚类算法CLIMP,它是一种新的基于极大团的模体聚类算法,通过OpenMP并行化程序设计来提高计算速度,能够将FisherMP发现的模体进行聚类分析,找出真实的模体。通过不同ChIP-Seq数据集的比对发现该算法在性能和效率上优于其他聚类算法。针对第二项研究内容,项目组开发了一个转录组从头组装算法StepLink,该算法摒弃了传统的构建 De Bruijn 图的方法,运用双重哈希表进行快速检索,精度和速度都优于现有的算法。并且尝试运用布隆过滤器降低内存消耗。StepLink算法目前尚在继续完善。将加入新的特征,以便能够快速对单次测序10T左右的RNA-Seq数据进行快速拼接。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
多倍体单体型从头组装算法研究
Chip-seq数据的位点特异性模体识别算法研究与开发
生物序列大数据集模体发现算法的研究
过度金属钽高温高压下固态相序的从头计算研究