Gene mutation analysis plays an important role in the genomics research to reveal the relationship between the complex diseases and gene structural variations. The development of next generation sequencing technology makes the genome-wide mutation screening being possible, which not only greatly improves the sequencing speed, but also decreases the sequencing cost. On the other hand, from this plotform, the ultra high-dimensional data are produced. How to accurately and efficiently imply the biological meanings from these high-dimensional data is a main problem we are facing in this post-genomic era. Nowadays, most of the mutation analysis methods for next generation data are based on the Bayesian model, whose results usually include a lot of false positives. In the microarray data analysis, the single feature polymorphism detection could be carried out under the multiple testing framework, and many FDR control methods were proposed for this purpose. However, these methods could not be applied to the next generation sequencing analysis directly. In the study, we will develop the FWER/FDR control methods for the multiple testing procedure, and propose a mutation analysis tool for the next generation data, to control the number of false positives in the genome-wide level and increase the accuracy of mutation analysis. Moreover, we will design the parallel computing algorithms to speed up the program.
基因突变分析是揭示复杂疾病与基因变异之间关系的重要途径。下一代测序技术的出现为全基因组范围内的基因突变扫描提供了技术支持,但这一技术在提高速度、降低成本的同时也带来了海量数据分析的问题,如何准确、高效地解读海量数据所承载的生物学信息是后基因时代所面临的重要问题。现阶段,运用下一代测序数据进行的突变分析基本采用贝叶斯模型的方法,其结果通常存在假阳性个数过多的问题。在微阵列数据下,扫描突变探针的问题可以在多重假设检验下进行,微阵列数据分析的研究进展促进了多重假设检验方法的蓬勃发展,但这些算法不能被直接应用于下一代测序数据分析中。本项目将以发展针对下一代测序数据的多重检验FWER/FDR控制方法为目的,开发针对下一代测序数据的突变分析算法和软件,在保持检测效率的同时从基因组水平上控制假阳性的发生,提高突变分析的准确度。此外,本项目还将开发并行运算算法,对计算机程序进行加速,增加基础研究的实用性。
以下一代测序技术为代表的高通量测序方法的出现,革命性地改变了基因组研究的蓝图,从一次几条跳跃到一次可以完成对几十万甚至几百万条DNA序列测定,这种高速度生产在短时期内即产生了海量数据,同时也包含了不可忽略的测序错误,对传统的突变分析算法提出挑战。把在每个位点上关于是否发生突变的推断视为一个假设检验,突变分析的实质是一个多重假设检验问题,即在控制假阳性的情况下尽可能提高突变检测的效率,或在保持检测效率的同时控制假阳性发生的个数。. 本项目以解决突变分析的位点检测为目标,开发对其适用的假阳性控制方法。突变和测序错误两个因素在观测数据中具有相同的表现,即改变被测序样本的碱基读,使其不同于参考链,因此突变分析假阳性控制的关键在于对数据中测序错误率大小的估计,据此判定某个位点是否出现突变。通过文献回顾和前期工作发现,仅以测序平台输出的碱基得分和比对得分难以准确地刻画测序错误率的大小。本项目分别针对单样本和多样本的下一代测序数据,开发了三个新的突变分析算法,把测序错误率定义为未知参数,建立统计学模型,利用真实数据对其估计。其一,扩展前期工作的单样本分析工具GeMS至多样本模型MultiGeMS;其二,我们把测序错误效应分解为样本效应和位点效应,编写了EM算法完成数值估计;其三,我们从全基因组整体刻画单样本数据在全部位点上的测序错误率,合并全基因组数据对其估计。在以上三项工作中,我们均引入隐变量描述未知的基因型,计算其后验概率用于基因型估计和FDR控制下的突变位点的判定。大量的随机模拟和实际数据分析表明,我们所提出的方法在控制假阳性和检测效率方法均优于文献方法。本项目所产出三项成果均实现为方便实用的R程序包,并在国际SCI期刊公开发表,丰富了突变分析的统计分析工具,为解决这类生物信息学问题提供了更多选择。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
超高维数据中若干检验问题的研究
函数型数据的检验问题
下一代测序数据自适应错误修正技术的研究
基于下一代测序的法医DNA疑难检材全解析度STR检验探索研究