With the rapid development of next generation sequencing technology, high-throughput RNA-seq has become a key approach in the study of gene expression and transcriptome. However, during our analysis of RNA-seq data, we find that the short-reads in RNA-seq are usually not uniformly distributed, and such biases in RNA-seq data post great challenges during estimating the gene expression levels. Until now, it has not yet carried out a systematic study to identify the factors which could cause such distribution biases. Meanwhile, there are none of algorithms can simultaneously correct the distribution biases from different sources in RNA-seq data and accurately estimate the gene expression levels. This research is proposed to comprehensively investigate the different types of factors resulted in the distribution biases of short-reads in RNA-seq data. Then, we will build appropriate statistical model to correct different sources of distribution biases from RNA-seq data and develop a computational algorithm for estimating the gene expression levels across the whole genome. The theory and algorithm to be developed in this proposed research will take the key statistical properties and basic distribution features of short-read datasets generated from Illumina/Solexa RNA-seq platform. We propose to test for reliability and utility of the theory and algorithm to be developed through intensive computer simulation studies and implementation of analysis with real RNA-seq dataset from non-small-cell lung carcinoma case-control samples. This research will fill in the scientific gap about the processing and analysis of RNA-seq data in bioinformatics field.
近年来,随着新一代测序技术的发展,高通量转录组测序(RNA-seq)已经成为基因表达谱分析和转录组学研究的重要技术手段。但是,我们在分析RNA-seq数据时发现,测序数据存在着固有的系统误差和读段分布偏好,严重干扰了推断基因表达水平的准确性。目前,还没有研究对造成读段分布偏好的原因进行较系统的分析,并且也没有一种推断基因表达水平的方法能够同时将多个不同因素造成的读段分布偏好进行校正。本研究将在兼顾新一代转录组测序数据的统计学性质和分布特征的基础上,探索导致数据系统误差和读段分布偏好的不同因素,构建和训练校正上述偏好的统计模型,继而开发从RNA-seq数据中准确推断基因表达水平的统计分析方法与相应的分析工具。我们将通过开展计算机随机模拟研究和分析真实的人类非小细胞肺癌RNA-seq测序数据,对理论分析和方法学研究的结果加以验证。本研究将丰富RNA-seq数据处理领域的生物信息分析工具库。
进入新世纪来,高通量转录组学测序技术已经在各项生物学研究领域中有着广泛的应用,同时该技术使得对各个物种的‘转录组学’信息进行细致全貌的精确分析成为了可能。但是高通量技术所产生的‘转录组学’数据具有高维、海量、存在系统误差和偏好等特点。如何高效、准确、合理的发掘隐含于这些复杂的高通量转录组学数据中相关生物学问题的准确、可靠的信息,不仅为生物统计、生物信息的理论与方法学提出新的挑战,同时也为这些学科开辟了研究与发展的新契机。本项研究计划正是希望系统的研究造成转录组测序数据中系统误差和读段分布偏好的根本原因和影响结果,构建校正上述系统误差和分布偏好的模型,以期开发从高通量转录组数据中准确推断基因表达水平的分析流程和算法。本项目通过系统研究了转录组学测序数据中基本统计学特征,特别是对该类型数据的系统误差和分布偏好进行深入分析,进而结合建库流程、测序原理和RNA样本特征(例如:不稳定、易降解和复杂的二级结构)等多个方面,找出造成数据出现系统误差和分布偏好的因素及其影响。以多元局部加权回归模型为基础,建立分析高通量转录组学数据分析的流程和算法,并成功将其应用到了多个实际的生物学科学问题和真实数据分析中去。首先,围绕高等脊椎动物中多套转录组测序数据结合DNA甲基化位点的分布和甲基化水平的变化,研究了DNA甲基化在调控基因表达水平的作用和机制。此次,针对多囊卵巢综合症大样本队列样本的基因转录组数据进行分析和信息挖掘,获得了13个PCOS关键的特异性表达分子标志。这项研究为多囊卵巢综合症的诊断和预后提供了潜在的分子标志,为PCOS关键基因的功能和机制分析研究提供了重要的参考依据。通过真实的数据分析和实际的生物学科学问题研究,对本项目所建立的理论模型、统计学算法和数据分析流程的实用性进行检测,为后续的高通量转录组学分析提供了理论和实践依据。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
高通量RNA-Seq测序数据的基因表达水平建模研究
基于时间序列RNA-Seq测序数据的基因表达动态分析建模研究
面向第三代RNA测序长读段的定位算法研究
基于自组装参考基因组的高通量长读测序数据压缩和比对集成研究