Next-generation sequencing techniques, which are higher throughput and more accurate than the Gene Chip technique, have gradually become an important means of genetics and diseases analysis. It is hard to analyze the new data because of small sample size, huge amount of a sample and discrete observation signals. So far, difficult problems appeared in the processing of next generation sequencing data analysis, such as normalization, false discovery rate controlling and classification, is almost no corresponding statistical methods. The project will mainly study the follow problems which remains a controversial issue until now, that is, (1) the statistical method of the sequencing depth normalization for different species; (2) how to estimate q-value with several different discrete p-value groups; (3) the study of classification for RNA-seq data with zero inflated; (4) considering the classification method of MeDIP-seq data with CpG information. To solve these problems, the project will consider mixed discrete distribution to fit new data, propose the discrete distribution model and structure statistical framework for normalization and classification problems. Furthermore, the projector will study the large sample theory of the estimations and apply it to analyze the newest real esophagus cancer data. The solution of these problems will provide reliable statistical methods and theoretical basis to analyze new data.
新一代测序技术比基因芯片技术更高通量和更精确,已经逐渐成为基因遗传和疾病分析的重要手段。对新一代测序数据统计分析的难点在于样本量少,但数据量十分巨大且观测信号离散。目前,对新型数据分析中出现的标准化,错误发现率控制及分类判别等难点问题几乎没有相应的统计解决方法。本项目将重点研究如下迄今还没有得到解决的问题:(1)不同物种的RNA-seq数据测序深度的标准化问题;(2)离散的多组p-value如何统一估计到q-value的问题;(3)RNA-seq数据中出现过多零的分类判别问题;(4)利用CpG信息来考虑MeDIP-seq数据的分类判别问题。为解决上述难题,本项目将利用离散分布等来拟合新数据,提出符合离散分布的模型并构建标准化和分类判别等问题的统计框架。进一步,本项目也将研究新的估计方法所得估计量的大样本性质,并分析最新的食管癌数据。上述问题的解决将为新数据分析提供可靠的统计方法和理论依据。
本项目主要研究了围绕新一代测序技术产生的测序序列数据在生物信息或其他应用中的统计问题。然后,研究了不同物种之间新一代测序数据的表达水平差异性检验中的标准化问题。在不同物种的标准化问题上,考虑不同物种的对应基因的特殊性,提出符合不同物种标准化的模型,并取得了非常好的效果,提供了SCBN软件包。对零过多的RNA-seq数据的分类判别方法,研究利用零分布和泊松分布的混合分布来拟合这种数据,结合贝叶斯分类方法提出了ZIPLDA等统计方法,极大地降低了错误率。提出了EM算法来估计CpG位点的甲基化水平,观测数据有效地估计出了每个位点的甲基化水平,为MeDIP-seq数据的分类提供了基础。另外,在纵向数据的ATF模型数据和测量误差方面也有相应的统计方法和理论研究并发表数篇SCI论文。本项目研究历时三年,总共以第一作者或通讯作者身份在国际SCI期刊上发表相关学术论文十一篇(第一标注的8篇),培养研究生8名,毕业两名。
{{i.achievement_title}}
数据更新时间:2023-05-31
端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响
基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制
多源数据驱动CNN-GRU模型的公交客流量分类预测
工业萝卜泡菜发酵过程中理化特性及真菌群落多样性分析
基于结构滤波器的伺服系统谐振抑制
基于新一代高通量测序数据的若干统计方法学研究
基于新一代测序数据的非比对统计功效的研究
基于高通量测序数据研究基因组变异的统计问题
基于新一代测序数据的肿瘤纯度及倍体动态预测方法研究