Liquid association is a kind of gene co-expression and plays a very important role in elucidating gene regulation and gene co-expression. Liquid association estimated from a single study is often unstable and not generalizable due to biological variation, cohort bias and limited sample size. Liquid association analysis combining multiple transcriptomic studies can provide more accurate and robust results. The rapid advances of various high-throughput technologies bring massive amount of gene expression data from different sources with different features, which makes the research on the liquid association based on multi-sources gene expression data become possible. This project aims to develop new methods from the view of meta p-value and meta effect size respectively to deal with the liquid association among genes based on multi-sources gene expression data and develop some effective methods to deal with the computational complexity when we search all the triplets in the whole genome. The major topics include: 1. develop suitable meta p-value method to apply on liquid association; 2. how to define the test statistic applied to liquid association and study its theory distribution and large sample property; 3. the time complexity and space complexity in the genome-wide calculation; 4. the suitable data features for data classification.
流动相关性问题是基因共表达问题中重要的一类,对揭示基因共表达关系有重要意义。基于单一实验的流动相关性研究结果通常不稳健,基于多源数据的整合分析稳健性较好。高通量基因组技术的发展带来了总量巨大的基因表达数据,为基于多源基因表达数据进行流动相关性问题研究提供了可能。本项目的研究内容:1、基于多源基因表达数据,针对流动相关性问题,从p值整合和效应整合两个方面,提出横向数据整合分析方法,并讨论其性质;2、提出在全基因组范围内进行基因三元组搜索的快速算法;3、讨论新方法的优劣及适用范围。本项目解决的关键问题:1、p值整合方法的选择及其在流动相关性问题上的拓展;2、如何定义适用于流动相关性问题的效应整合统计量并得到其理论分布和大样本性质;3、在全基因组范围内计算流动相关性的时间复杂度和空间复杂度问题;4、用于数据分类的特征的选择。
基因表达数据中包含大量的基因调控、基因共表达等信息。流动相关性问题是基因共表达问题中很重要的一类,描述两个基因受哨兵基因影响的动态共表达情况,对揭示生命活动调控规律具有重要的意义。. 近几年来,基因芯片技术和高通量基因组技术迅猛发展,带来了大量的基因表达数据。但是,由于生物实验的波动性、不同实验条件的偏差、以及样本数量的限制等因素的影响,基于单一来源的基因表达数据进行流动相关性问题的研究结果往往不稳健,不具有可扩展性。因此,基于多源基因表达数据整合分析对流动相关性问题进行研究有着非常重要的意义。. 本项目主要研究基于多源基因表达数据横向整合方法的流动相关性问题。项目组分别基于多源基因表达数据的p值整合方法和效应整合方法这两种横向数据整合方法,对流动相关性问题的数据整合方法进行深入研究和比较,并从时间复杂度和空间复杂度的角度入手,研究适用于在全基因组范围内进行计算的基因三元组快速搜索算法。. 经研究发现,针对本问题的p值整合方法效果欠佳,效应整合方法效果较好。因此,本项目提出两种效应整合方法对转录组数据进行整合。实验发现,与单一实验数据的结果相比较,这两种效应整合方法的生物发现率更高、结果更加一致、更加稳健。针对全基因组范围内进行搜索时遇到的高计算复杂度的问题,本项目提出bootstrap筛选和符号筛选两步筛选法,大幅降低运算时间和内存需求,使得计算具有可操作性。为便于广大学者使用,项目组开发了相关R软件包。. 本项目提出的方法对探索不同环境或不同疾病状态下生物的转录调控机制具有重要意义,为探索复杂疾病发病机理以及治疗方法提供了一定帮助。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
多源基因表达数据横向整合的统计方法比较
基于多源数据整合的耐药基因识别算法研究
基于多源数据整合的药物组合预测方法研究
多源基因表达大数据整合及三维动态模式识别的关键技术研究