As the sequencing technology advances and its cost decreases, the amount of biological sequencing data grows exponentially, which makes computational methods more challenging to systematically mining and integrate multi-source heterogeneous data. This project aims at a series of systematic, biologically plausible piRNA big data analyzing methods, to study the biogenesis and regulation mechanism of Drosophila piRNA system, by network structure learning, introducing known biological knowledge as prior constraints, and multi-view data fusion. piRNA is a genome defense system, and it represses the jumping activity of transposon elements to prevent DNA from breakage which may lead to diseases. The project consists of three parts. First, we model the biogenesis and functioning pathway by Bayesian networks, based on the RNA sequencing data of piRNA related protein mutants. Second, we develop methods for Bayesian network structure learning with constraints induced from biological knowledge and available results, as well as parallel implementation, in order to reduce the structure-searching time and space during learning. Third, we develop methods to integrate multi-source heterogeneous data into network structure learning, for enhanced prediction capacity. To summarize, our final purpose is to build a new unified, data-driven, and knowledge-driven modeling and analysis method, which could delineate the Drosophila piRNA biological regulation system. The research in the project is able to provide new insights into piRNA regulation mechanism, discover new functions, significantly lower costs for a lot of biological experiments, speed up the biological research, and build the computational foundation for studying human piRNA related diseases and drugs in the future.
生物数据急速增长,对分析方法的系统性、多源异质数据融合提出了新的挑战。本项目面向果蝇piRNA大数据,从网络结构学习、引入生物知识指导、多源数据融合三个方面,研究果蝇piRNA的调控机制,形成一套系统的、生物可解释性强的piRNA大数据分析方法。具体地,我们通过果蝇piRNA相关蛋白突变的大数据,使用贝叶斯网络结构学习piRNA的产生和调控机制;为了得到更优的网络结构,将生物学先验知识转化为拓扑结构限制,研究知识指导的带约束结构学习方法及其并行算法以降低计算时间;为了提升模型的预测能力,发展能融合多源异质数据的网络结构学习方法。通过以上研究,最终目的是建立统一的数据驱动与知识指导的建模和分析新方法,解析果蝇piRNA调控系统的特征和功能。本研究有望提供piRNA作用机制的新理解,发现新功能,节约大量实验经费,加速实验突破,为研究人类piRNA相关疾病和药物打下基础。
piRNA是在动物性腺中发现的一类长度在20-30碱基之间的非蛋白编码RNA。piRNA从首次被发现至今,持续得到学术界的高度重视,在2006年被《Science》评为十大科学进展之一。piRNA可沉默转座子和其他重复元件、保护生殖细胞基因组免于因转座子运动导致的双链DNA断裂,从而潜在地避免基因突变引起的遗传性疾病和癌症。本项目面向piRNA大数据,从网络结构学习、引入生物知识指导、多源数据融合三个方面,应对生物数据急速增长下对分析方法的系统性、多源异质数据融合提出的新挑战。为此,我们提出了一套面向piRNA相关蛋白突变数据的贝叶斯网络结构学习方法,用贝叶斯网的上下游关系来建模,每个变量的观察数据则为piRNA产量的变化或者转座子活跃量的变化。该方法可以准确地从数据中学习预测piRNA的产生和调控机制,可以将生物学先验知识转化为拓扑结构限制融合到学习过程中,可以融合多源异质数据提高预测的置信度。通过最大似然准则和BIC模型选择,我们的方法能够准确地刻画piRNA核心通路中4个蛋白(Uap56、Vasa、Aub、Ago3)上下游关系,与已有的生物学数据一致;同时,可以对整个通路提出预测,特别是对局部3~4个蛋白间的关系得到高置信度解析,发现蛋白新功能,节约大量实验经费,加速实验突破。在对piRNA机制研究的基础上,我们与合作者一起建立了piRTarBase,搜集了超过100万个目标位点,覆盖了超过2万多个基因、3万多转录本。其中,由我们前期的Science论文中严格匹配准则所预测的位点有57万个,松弛约束的匹配准则预测的位点有140万个,CLASH数据确定的有1万多个(含904个严格预测位点、2273个松弛预测位点)。piRTarBase还根据搜集的mRNA测序数据计算了含目标位点基因的表达量,以及对应的22G-RNA的产生量,从而可以评估目标位点的调控强度和显著性。综上,本项目提出的piRNA贝叶斯网模型、piRTarBase数据库,辅助揭示了piRNA的产生和调控机制,为RNA治疗提供线索,为研究人类piRNA相关疾病和药物打下基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
跨社交网络用户对齐技术综述
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
果蝇转座元件和piRNA之间的基因组冲突及对杂交不育的影响
piRNA调控长非编码RNA以及piRNA调控网络的构建
3D基因表达数据中负相关模式的挖掘及基因调控机制的推导
果蝇pygo基因调控心脏衰老的分子机制研究