Deciphering mechanisms of gene regulation specific to a tissue is of fundamental importance to the understanding of cell differentiation, individual development and disease mechanism. In recent years, experimental big data have been rapidly accumulated for both transcriptomics and epigenetics. However, most studies thus far focused on a single type of data and produced qualitative results, not only lacking intelligent deep mining and integrative analysis of multiple types of data, but also overlooking the basic information in the sequence of a genome. Aiming at solving these shortcomings, we propose to develop deep learning approaches for deciphering gene regulation patterns via the integration of sequence and chromatin accessibility big data. We first predict regulatory elements specific to a tissue or cell line by deep learning models that integrate sequence, chromatin status and gene expression data. Then, we integrate sequence and experiment data to predict target genes of these elements by using natural language processing techniques and deep learning models. Finally, we develop novel statistical models to understand whole genome genetic data based on tissue specific regulatory networks composed of genes and regulatory elements. We will summarize research results as three databases and three sets of software, and demonstrate their applications via the analysis of a real whole genome sequencing data set of pulmonary artery hypertension (PAH), thereby promoting applications of deep learning in biological and medical big data, and providing a reference to applications of theories and techniques in information sciences to solving important scientific questions in life sciences.
解析组织特异的基因调控模式是研究细胞分化、个体发育、疾病发生的基础。近年来转录组和表观遗传学实验数据大量积累,但研究方法以单类数据为主,定性分析居多,尚缺乏智能化深入挖掘和多种数据整合分析,更忽略了基因组序列这一基础信息来源。针对这些问题,本项目研究整合序列与染色质状态大数据解析基因调控模式的深度学习方法。首先整合基因组序列、染色质状态、基因表达等数据建立深度学习模型,实现细胞系特异的调控元件预测。其次整合调控元件与基因的序列和实验数据,使用自然语言处理技术和深度学习模型实现细胞系特异的调控元件目标基因预测。最后发展基于基因调控图谱的统计遗传学模型,建立全基因组遗传学数据解读新方法。项目预期成果将汇总为三个数据库和三套分析软件,通过肺动脉高压全基因组测序数据开展综合示范应用研究,从而推动深度学习在生物医学大数据分析中的应用实践,为运用信息科学理论方法解决生命科学关键问题提供有益借鉴。
解析组织特异的基因调控模式是研究细胞分化、个体发育、疾病发生的基础。近年来转录组和表观遗传学实验数据大量积累,但研究方法以单类数据为主,定性分析居多,尚缺乏智能化深入挖掘和多种数据整合分析,更忽略了基因组序列这一基础信息来源。针对这些问题,本项目研究整合序列与染色质状态大数据解析基因调控模式的深度学习方法。首先整合基因组序列、染色质状态、基因表达等数据建立深度学习模型,实现细胞系特异的调控元件预测。其次整合调控元件与基因的序列和实验数据,使用自然语言处理技术和深度学习模型实现细胞系特异的调控元件目标基因预测。最后发展基于基因调控图谱的统计遗传学模型,建立全基因组遗传学数据解读新方法。项目获批启动后,按计划执行,圆满完成了计划书中设定的各项内容,此外,项目组还积极探索了单细胞数据分析的深度学习系列方法,取得了大量创新研究成果。研究过程中所取得的研究成果汇总为29篇学术论文,包括Nature Machine Intelligence 3篇,Proc Natl Acad Sci USA 2篇,Nucleic Acids Research 4篇,Nature Communications 2篇。基于这些成果,项目申请专利2项,发表数据库3个,发布生物信息学软件20个。这些成果从信息整合的角度研究基因调控模式的解析问题,既在生物医学大数据的智能化定量整合分析中具有重要理论意义,又在遗传疾病研究中具有重大实际应用价值。形成的一系列具有自主知识产权的计算方法和应用软件不仅推动了对基因调控等基础科学问题的认识,还促进了致病遗传因素的发现,从而为运用信息科学领域的理论与方法解决生命科学领域的关键问题提供了有益的借鉴。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
整合多组学数据揭示胚胎干细胞特异的转录调控与染色质状态交联模式
集成染色质状态和表达数据的基因调控网络建模
基于多组学数据整合与深度学习的癌症驱动基因研究
基于深度学习的植物功能性状数据整合及长时间序列分析