With the fast development of the next generation deep sequencing technology, specifically the RNA-Seq methodology, many algorithms and methods emerge in the past decade that aim to infer or reconstruct biological regulatory networks. However, since knowledge about the underlying differences between different samples sent to sequencing is often blurry or barely lacking, researchers could hardly infer regulatory networks with high precision based on these gene expression profiling data sets. More recently, with the growing application of RNAi and other gene knockdown technologies in model organisms such as C.elegans and Yeast, researchers now could easily interfere or completely turn down the expression of a particular gene to see its function from the corresponding phenotype or expression changes of other genes. However, based on differential analysis of gene expressions, it is still hard to distinguish whether the interaction between two genes is either direct or indirect and technically more challenging to infer the combinatorial interaction or epistasis between multiple genes. In this proposal, we aim to develop a new algorithm (called the Deletion Mutant Bayesian Network) to accurately reconstruct moderately large regulatory networks by integrating genome-wide gene expression data sets before and after genetic perturbations. Specifically, the proposed algorithm is expected to have the following characteristics: 1) Effectively employing the extra information offered in genetic pertubation experiments to better infer gene-gene interactions. 2) With a new kernel function in the Bayesian network scoring function to enable the algorithm better handling the spasity of differentially expressed gene (DEG) data sets.
随着深度测序技术,特别是RNA深度测序技术的飞速发展,利用基因表达谱来推断和重构生物调控网络的方法层出不穷。然而,由于不同测序样本之间的关系并不明确,研究者很难依赖普通表达谱数据精确推断基因调控网络。近年来,随着RNAi技术和缺失突变技术在线虫、酵母等模式生物中广泛应用,研究者能够通过干预或关闭特定基因的表达,来观测其它基因表达的影响来推测该基因的作用。利用表达差异的分析,研究者能够得到一些基因互作的信息,然而却难以区分基因之间的作用关系为直接或间接,也难以推断组合调控与上位效应。本研究拟开发一种新的信息整合与网络推断算法(缺失突变的贝叶斯网方法),它能够整合多个遗传干预事件的全基因表达谱的数据,在较大的尺度上高精度地推断基因调控网络。该算法的主要特点在于1)在网络推断和因果解析中考虑了遗传干预提供的先验信息;2)设计了新的核函数来处理差异表达数据的稀疏性。初步测试证实了该方法的有效性。
随着深度测序技术和以RNAi为代表的基因沉默技术的成熟,检测遗传干预事件下的基因表达量变化已成为研究基因调控规律的一种重要手段。本项目的主要研究内容是设计新的贝叶斯网络推断和因果关系解析算法,整合多个基因缺失突变等遗传干预条件下的表达谱改变数据,推断高精度的基因调控网络,并对关键的调控基因进行预测。针对这个问题,我们首先提出DM_BN算法,它针对离散化基因缺失突变表达谱变化数据的高度稀疏性,设计出新的核函数,解决了传统贝叶斯网络打分方法在这类数据上具有较高偏差的问题。通过有效利用数据中蕴含的先验因果信息对搜索空间进行约束,该算法能够精确地推断较大规模的基因调控网络。在酵母基因缺失突变表达谱数据上的分析结果表明,DM_BN算法在基因调控关系预测的精度和覆盖度上比已有方法有明显提升,而且能取得较高的因果性判断正确率。其次,在此基础上我们进一步开发了基于连续型表达谱数据的贝叶斯网络结构学习算法eDM_BN,它能够有效利用敲除株/野生株中基因表达幅度变化的剂量效应(dose effect),更精确地推断调控网络。该算法成功预测出“饮食限制”延长线虫寿命的三个重要基因调控模块,得到了实验验证。第三,为了研究表观遗传学因素对基因转录调控的影响,我们与合作者开发出利用MNase测序数据在基因组上精确定位核小体的iNPS算法。运用该算法分析T细胞激活前后核小体的分布差异,能够较准确地找出在该过程中激活的信号传导通路。最后,在上述工作基础上,我们还将eDM_BN算法用于分析不同小分子化合物干预条件下的磷酸化蛋白质组和单细胞测序数据,对体细胞转分化与干细胞分化过程中的复杂分子调控规律进行研究。综上,本项目提出了一系列从遗传干预表达谱改变数据推断基因调控网络的新算法,并在酵母、线虫等模式动物上进行了较为系统的应用与检验,一些新的基因调控规律预测结果已被湿实验所证实。
{{i.achievement_title}}
数据更新时间:2023-05-31
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
双吸离心泵压力脉动特性数值模拟及试验研究
空气电晕放电发展过程的特征发射光谱分析与放电识别
地震作用下岩羊村滑坡稳定性与失稳机制研究
缺失数据下基于经验似然的稳健推断函数
不可忽略缺失数据模型的统计推断方法研究
纵向缺失数据下半参数模型的稳健统计推断
含有缺失值的纵向数据回归模型的稳健推断