Gene regulation is important in almost every biological process. We study the gene regulatory network with the chromatin state information. Cell packs a lot of genetic and regulatory information through the amazing structure known as chromatin, i.e., DNA is wrapped around histone proteins and is tightly packed in a remark-able way. To express a gene in a specific coding region, the chromatin first opens up and forms the DNA loop by interacting enhancers and promoters. Furthermore, the mediator and cohesion complexes, sequence-specific TFs, and RNA polymerase II (pol II) are recruited and work together to elaborately regulate the expression level. It’s in pressing need to under-stand how the information, about when and where genes should be expressed, is embedded into chromatin level and gene regulatory elements. Thanks to the large consortia such as En-cyclopedia of DNA Elements (ENCODE) and Roadmap Epigenomic projects, they have pro-vided important knowledge of chromatin accessibility and the transcriptome data across many cell types. This offers us a new opportunity to model the causal regulatory relationship by considering the chromatin state or activity. Here, we will develop new computational methods, interpretive frameworks, and integrative models that will enable the accurate interpretation of regulatory landscape. Particularly, we will discuss the models and algorithms to organize, analyze, model, and integrate the DNA accessibility data, transcriptional data, and functional genomic regions together. We believe that the integrative paradigm on chromatin and expression levels will eventually help us to understand the information flow in cell and will influence research directions across many fields.
基因调控集中反映了分子生物学中心法则指出的遗传信息的流动方向,是几乎所有生物过程的重要基础。本项目将集成染色质和转录组层面的数据,研究染色质层面特定功能区域如何“开放”,招募调控因子,形成启动子和增强子的环结构,实现对基因表达的精准控制。将分析深度测序技术产生的全基因组范围的染色质状态和基因表达数据,识别出染色质上开放区域作为调控元件;研究多层数据集成的新方法,找出结合在调控元件上游的转录因子、染色质因子及组合,预测调控元件的下游目标基因;集成上下游信息,定量刻画调控元件活性,推断基因调控网络。针对DNA百科全书(Encode)和表观遗传学路线图(Roadmap)计划数据库中高维度、异源、多层次的复杂数据,本项目将发展最优化、信息熵和矩阵分解等数学、统计和信息科学方法,聚焦调控网构建和染色质状态定量的模型与算法,预期将为细胞分化、发育等研究提供新方法并揭示染色质层面的基因调控机理。
基因调控集中反映了分子生物学中心法则指出的遗传信息的流动方向,是几乎所有生物过程的重要基础。本项目计划集成染色质和转录组层面的数据,研究染色质层面特定功能区域如何“开放”,招募调控因子,形成启动子和增强子的环结构,实现对基因表达的精准控制。..研究工作按原计划顺利完成。取得重要结果(1)发展了集成染色质状态数据的基因调控网络的新数学模型PECA,利用非凸优化模型建模匹配的基因表达和染色质可及性数据,刻画顺式调控元件和反式调控元件相互作用。在基因调控网络建模中引入调控元件状态,用严格的概率模型集成顺式和反式调控元件,针对非凸优化设计高效算法。(2)将PECA框架扩展到短时间序列双层匹配数据建模,提出了一种基于配对基因表达和染色质可及性时间序列数据的基因调控网络分析方法TimeReg。应用于对维甲酸(RA)诱导小鼠胚胎干细胞(mESC)分化研究,识别驱动细胞状态变化的关键转录因子,并在不同时间点之间因果连接调控模块。(3)针对从全能性干细胞向表皮角质细胞分化期间的匹配的染色质可及性和基因表达时间序列数据,提出了针对转录因子-可及调控元件-靶基因三元组的网络推断模型,揭示了干细胞分化过程中的两个关键的过渡期:表面外胚层起始阶段和角质形成细胞成熟阶段,并分别将TFAP2C和p63鉴定为谱系起始和成熟的关键转录因子。通过功能实验充分验证了计算预测。(4)发展了整合基因组-表观组-转录组-表型层面的数据的方法论框架vPECA,构建以受选择调控元件为核心的基因调控网络模型,对藏族高原低氧适应的调控机制进行了系统地分析。..我们通过数学建模匹配的转录和表观遗传数据,将基因调控网络的建模研究从编码基因推进到了非编码区域的调控元件,并用来注释疾病等表型相关的遗传变异,极大地促进我们对后基因组时代基因调控网络的理解。..共发表包括PNAS,Cell Stem Cell,Nature Communications,Genome Research等18篇论文,编制数据分析软件6项,培养毕业博士生2名,获得后续资助3项,包括1项国家自然基金委杰出青年基金。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
跨社交网络用户对齐技术综述
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
肝星状细胞NLRP3/caspase-1信号通路持续活化在慢性和传播阻断后血吸虫病致病中的作用机制
基于异质多组学数据集成的基因调控网络建模方法研究
集成大规模基因表达和代谢数据对物种调控机制的研究
整合序列与染色质状态大数据解析基因调控模式的深度学习方法
基于高通量数据的基因调控网络构建模型和方法研究