高通量RNA-Seq数据的偏差建模和差异表达基因识别

基本信息
批准号:61203282
项目类别:青年科学基金项目
资助金额:24.00
负责人:王颖
学科分类:
依托单位:厦门大学
批准年份:2012
结题年份:2015
起止时间:2013-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:陈挺,邹权,江灏,陈培芝,刘麟,曹建国,张华飞
关键词:
测序偏差建模差异表达基因高通量转录组测序技术新一代测序技术
结项摘要

This proposal aims to develop the methods to model the sequencing bias and identify the differentially expressed genes with RNA-Seq datasets, produced with next generation sequencing technique. Different with traditional processes, all the analysis is based on the information of nucleotide base instead of gene or exon unit in order to make full use of the high resolution information with RNA-Seq datasets, and current exon and gene unit processing can be represented as the integral of nucleotide base. .System identification techniques are introduced into the RNA-Seq datasets. The potential factors causing sequencing bias are treated as independent variables, and the observed reads number for each nucleotide base is the response variable. Bias tendency of single factor are evaluated with sampling statistical technique to obtain the correct model structure. The complete bias model can be depicted as linear or nonlinear model. The two-step scheme are proposed for optimization. The least square method combined with weight functions and the EM algorithm are applied to estimate the undetermined parameters. Based on the corrected reads number for nucleotide base unit, regression, spline fit and L2 error norm techniques are integrated to estimate significance of the difference between the reads number of the same nucleotide sequence under two conditions, to identify the differentially expressed genes. The proper setting of integral interval in the L2 error norm can cover the current exon-unit and gene-unit processing methods; and the spline technique can handle the discontinuous reads distribution between different exons. Based on the approach, the conditions without technical/ biological replicates can be compared more accurately. Furthermore, the bias caused by gene length and sequencing depth can be avoided effectively. With the approach, the identification results, potential relationship and internal mechanism among the respective methods based on base/exon/gene unit will be analyzed. .Overall, with the introducing system identification techniques into the RNA-Seq datasets analysis, novel modeling and optimization ideas are explored to make the most of the high resolution information from RNA-Seq. In biology , we target to obtain the valid and accurate sequencing bias correcting model and differentially-expressed gene identification. In information, based on system identification, we effort to explore the suitable research ideaes for RNA-Seq and further bioinformatics analysis to achieve effective,valid and explicit-biological-meaning modeling and optimization approaches.

本项目对高通量RNA-Seq数据的偏差建模和差异表达基因识别展开研究。本项目将碱基视为信息处理的基本单位,而外显子、基因等都可视为碱基单元的某种积分。分析偏差时,将可能的偏差因素作为解释变量,观测到的碱基短序列匹配数作为响应变量,通过采样获取各因素对短序列分布的影响趋势,从而获取正确的模型结构,构建针对不同测序协议、平台适用的模型结构;提出两步骤优化方法,采用权系数与最小二乘的混合估计法、EM算法,对建立的线性或非线性模型寻优偏差权重,修正碱基位上的短序列匹配数。基于修正结果,提出基于碱基单元的差异表达基因识别方法。通过利用碱基的位置对应信息和短序列匹配数信息,结合线性拟合、样条回归、L2误差范数等技术识别不同条件下碱基序列上的匹配数差异的显著性,进而识别出差异表达基因。以上思路在统计方法中引入系统辨识的思想,以碱基为单位,充分利用RNA-Seq数据带来的高分辨率信息进行后续的数据分析。

项目摘要

新一代高通量测序受到极大关注。利用宏基因组和宏转录组高通量测序数据比较微生物群落间的差异成为重要的科学问题。该差异不仅涉及物种的丰度差异,也涉及物种的组成差异。本项目基于高通量测序数据对不同样本,特别是微生物群落之间差异的分析方法进行研究和探索,建立以下模型和平台,并运用到不同类型的高通量测序数据中:.①基于k-tuple频度的序列显著性统计模型及平台,基于定阶次马尔科夫模型的频度转移概率估计方法,无需配准,不需要种群的生物种类和基因组序列参考信息,仅仅基于数据本身分析不同样本和种群间的差异。该模型应用于99个海洋水域的微生物群落宏转录组数据以及16个宏基因组数据,利用该模型研究分析不同种群间的差异度,环境梯度的影响。.②基于RNA-Seq的基因组注解数据库评估模型:基于RNA-Seq至注解参考序列的配准信息提出在基因、转录物、外显子、剪切位点和碱基层面的特异性和敏感性度量指标, 进而评估基因组注解数据库的完整性和精确性。对5 个代表性的人类基因组注解数据库评估, 并构建人体综合准确注解数据库; 此外, 通过对现有恒河猴基因组注解数据库的评估 发现该数据库的完整性的欠缺, 及其注解精确性与人类数据库的注解水平的差距。该评估体系可对各物种的基因组注解信息进行全面、快速和高效的评估及验证,为差异表达基因选择合理的注解数据库提供了很好的参考依据。.③基于数据配准的全基因组注解动态规划模型:基于物种的相似性,利用已注解物种的基因组注解信息对未注解物种的基因组进行注解。通过序列比对,建立基于配准性能、配准位置关系、顺序和距离关系的动态规划模型,无需收集参考数据库和生物实验,快速建立具有足够精确度和完整性的物种注解信息,提供重要的参考信息。.④基于长k-tuple的信息显著性能初步分析:前期研究都集中在2-10bp的tuple中,主要关注tuple分布的总体统计特性。利用长k-tuple(k≥30),基于文本挖掘的信息聚类进行初步探索,发现长k-tuple独有的优势。.研究得到以下结论:.①基于2-10bp的tuple统计模型能较好地度量不同样本间的差异程度。对微生物群落能反映外部环境对群落的影响梯度。.②基于RNA-Seq高通量测序数据有效快速地验证全基因组的注解信息,为注解信息的评估和完善提供参考信息。.③当k-tuple变长,信息量变大,是很好的探索

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
3

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DOI:10.3969/j.issn.1673-1689.2021.10.004
发表时间:2021
4

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
5

转录组与代谢联合解析红花槭叶片中青素苷变化机制

转录组与代谢联合解析红花槭叶片中青素苷变化机制

DOI:
发表时间:

王颖的其他基金

批准号:41603111
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:10926135
批准年份:2009
资助金额:3.00
项目类别:数学天元基金项目
批准号:81402090
批准年份:2014
资助金额:23.00
项目类别:青年科学基金项目
批准号:81703961
批准年份:2017
资助金额:20.00
项目类别:青年科学基金项目
批准号:61305049
批准年份:2013
资助金额:24.00
项目类别:青年科学基金项目
批准号:81470095
批准年份:2014
资助金额:30.00
项目类别:面上项目
批准号:31801999
批准年份:2018
资助金额:25.00
项目类别:青年科学基金项目
批准号:81572849
批准年份:2015
资助金额:57.00
项目类别:面上项目
批准号:31370884
批准年份:2013
资助金额:80.00
项目类别:面上项目
批准号:51574177
批准年份:2015
资助金额:65.00
项目类别:面上项目
批准号:31570088
批准年份:2015
资助金额:62.00
项目类别:面上项目
批准号:71303220
批准年份:2013
资助金额:22.00
项目类别:青年科学基金项目
批准号:21607086
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:60772155
批准年份:2007
资助金额:26.00
项目类别:面上项目
批准号:21203174
批准年份:2012
资助金额:25.00
项目类别:青年科学基金项目
批准号:11626125
批准年份:2016
资助金额:3.00
项目类别:数学天元基金项目
批准号:70273064
批准年份:2002
资助金额:5.00
项目类别:面上项目
批准号:51371063
批准年份:2013
资助金额:80.00
项目类别:面上项目
批准号:31870158
批准年份:2018
资助金额:59.00
项目类别:面上项目
批准号:81903619
批准年份:2019
资助金额:21.00
项目类别:青年科学基金项目
批准号:21177013
批准年份:2011
资助金额:65.00
项目类别:面上项目
批准号:81800852
批准年份:2018
资助金额:21.00
项目类别:青年科学基金项目
批准号:51578070
批准年份:2015
资助金额:62.00
项目类别:面上项目
批准号:41205077
批准年份:2012
资助金额:25.00
项目类别:青年科学基金项目
批准号:61504153
批准年份:2015
资助金额:21.00
项目类别:青年科学基金项目
批准号:41301322
批准年份:2013
资助金额:26.00
项目类别:青年科学基金项目
批准号:50975019
批准年份:2009
资助金额:30.00
项目类别:面上项目
批准号:41304081
批准年份:2013
资助金额:25.00
项目类别:青年科学基金项目
批准号:61774052
批准年份:2017
资助金额:63.00
项目类别:面上项目
批准号:11701252
批准年份:2017
资助金额:23.00
项目类别:青年科学基金项目
批准号:81671670
批准年份:2016
资助金额:58.00
项目类别:面上项目
批准号:60772127
批准年份:2007
资助金额:29.00
项目类别:面上项目
批准号:11701068
批准年份:2017
资助金额:22.00
项目类别:青年科学基金项目
批准号:49236120
批准年份:1992
资助金额:80.00
项目类别:重点项目
批准号:70703005
批准年份:2007
资助金额:17.00
项目类别:青年科学基金项目
批准号:31300034
批准年份:2013
资助金额:23.00
项目类别:青年科学基金项目
批准号:81100206
批准年份:2011
资助金额:23.00
项目类别:青年科学基金项目
批准号:30500024
批准年份:2005
资助金额:26.00
项目类别:青年科学基金项目
批准号:71473046
批准年份:2014
资助金额:62.00
项目类别:面上项目
批准号:71401004
批准年份:2014
资助金额:23.00
项目类别:青年科学基金项目
批准号:21305046
批准年份:2013
资助金额:25.00
项目类别:青年科学基金项目
批准号:30801454
批准年份:2008
资助金额:22.00
项目类别:青年科学基金项目
批准号:60906048
批准年份:2009
资助金额:21.00
项目类别:青年科学基金项目
批准号:51907025
批准年份:2019
资助金额:25.00
项目类别:青年科学基金项目
批准号:41807173
批准年份:2018
资助金额:24.00
项目类别:青年科学基金项目
批准号:81772631
批准年份:2017
资助金额:45.00
项目类别:面上项目
批准号:48670245
批准年份:1986
资助金额:4.00
项目类别:面上项目
批准号:21673220
批准年份:2016
资助金额:65.00
项目类别:面上项目
批准号:61201294
批准年份:2012
资助金额:25.00
项目类别:青年科学基金项目
批准号:81071999
批准年份:2010
资助金额:35.00
项目类别:面上项目
批准号:51005163
批准年份:2010
资助金额:20.00
项目类别:青年科学基金项目
批准号:50679072
批准年份:2006
资助金额:31.00
项目类别:面上项目
批准号:81572422
批准年份:2015
资助金额:55.00
项目类别:面上项目
批准号:31601075
批准年份:2016
资助金额:17.00
项目类别:青年科学基金项目
批准号:61404070
批准年份:2014
资助金额:24.00
项目类别:青年科学基金项目
批准号:81200042
批准年份:2012
资助金额:23.00
项目类别:青年科学基金项目
批准号:61874124
批准年份:2018
资助金额:63.00
项目类别:面上项目
批准号:81873833
批准年份:2018
资助金额:57.00
项目类别:面上项目
批准号:31200368
批准年份:2012
资助金额:25.00
项目类别:青年科学基金项目
批准号:50708007
批准年份:2007
资助金额:22.00
项目类别:青年科学基金项目
批准号:51602341
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:31401708
批准年份:2014
资助金额:26.00
项目类别:青年科学基金项目
批准号:40271004
批准年份:2002
资助金额:32.00
项目类别:面上项目
批准号:81873868
批准年份:2018
资助金额:56.00
项目类别:面上项目
批准号:61003041
批准年份:2010
资助金额:19.00
项目类别:青年科学基金项目
批准号:81200596
批准年份:2012
资助金额:23.00
项目类别:青年科学基金项目
批准号:30771965
批准年份:2007
资助金额:35.00
项目类别:面上项目
批准号:51008199
批准年份:2010
资助金额:20.00
项目类别:青年科学基金项目
批准号:51903114
批准年份:2019
资助金额:25.00
项目类别:青年科学基金项目
批准号:31872921
批准年份:2018
资助金额:59.00
项目类别:面上项目
批准号:11803020
批准年份:2018
资助金额:26.00
项目类别:青年科学基金项目
批准号:61304171
批准年份:2013
资助金额:26.00
项目类别:青年科学基金项目
批准号:31000790
批准年份:2010
资助金额:20.00
项目类别:青年科学基金项目
批准号:31702195
批准年份:2017
资助金额:25.00
项目类别:青年科学基金项目
批准号:61673324
批准年份:2016
资助金额:57.00
项目类别:面上项目
批准号:81501456
批准年份:2015
资助金额:18.00
项目类别:青年科学基金项目
批准号:21572023
批准年份:2015
资助金额:65.00
项目类别:面上项目
批准号:21903024
批准年份:2019
资助金额:25.00
项目类别:青年科学基金项目
批准号:81904235
批准年份:2019
资助金额:20.00
项目类别:青年科学基金项目
批准号:31700269
批准年份:2017
资助金额:24.00
项目类别:青年科学基金项目
批准号:61340056
批准年份:2013
资助金额:18.00
项目类别:专项基金项目
批准号:71673055
批准年份:2016
资助金额:49.00
项目类别:面上项目
批准号:61501459
批准年份:2015
资助金额:19.00
项目类别:青年科学基金项目
批准号:21606018
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:41401182
批准年份:2014
资助金额:23.00
项目类别:青年科学基金项目
批准号:71874161
批准年份:2018
资助金额:47.50
项目类别:面上项目
批准号:61575222
批准年份:2015
资助金额:60.00
项目类别:面上项目
批准号:51401121
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:11602159
批准年份:2016
资助金额:22.00
项目类别:青年科学基金项目
批准号:61501044
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目
批准号:51774214
批准年份:2017
资助金额:60.00
项目类别:面上项目
批准号:81200931
批准年份:2012
资助金额:23.00
项目类别:青年科学基金项目
批准号:31170828
批准年份:2011
资助金额:50.00
项目类别:面上项目
批准号:61108078
批准年份:2011
资助金额:26.00
项目类别:青年科学基金项目
批准号:81171345
批准年份:2011
资助金额:58.00
项目类别:面上项目
批准号:30970140
批准年份:2009
资助金额:30.00
项目类别:面上项目
批准号:21901151
批准年份:2019
资助金额:25.00
项目类别:青年科学基金项目
批准号:81801297
批准年份:2018
资助金额:23.00
项目类别:青年科学基金项目
批准号:51602314
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:61571343
批准年份:2015
资助金额:57.00
项目类别:面上项目

相似国自然基金

1

高通量RNA-Seq测序数据的基因表达水平建模研究

批准号:61170152
批准年份:2011
负责人:刘学军
学科分类:F0213
资助金额:56.00
项目类别:面上项目
2

基于时间序列RNA-Seq测序数据的基因表达动态分析建模研究

批准号:61802193
批准年份:2018
负责人:张礼
学科分类:F0213
资助金额:25.00
项目类别:青年科学基金项目
3

基于RNA-Seq技术的不同倍性麻竹基因表达差异研究

批准号:31200508
批准年份:2012
负责人:乔桂荣
学科分类:C1610
资助金额:23.00
项目类别:青年科学基金项目
4

基于高通量数据的基因调控网络构建模型和方法研究

批准号:61402457
批准年份:2014
负责人:张秀军
学科分类:F0213
资助金额:24.00
项目类别:青年科学基金项目