高通量RNA-Seq数据的偏差建模和差异表达基因识别

基本信息

批准号：61203282

项目类别：青年科学基金项目

资助金额：24.00

负责人：王颖

学科分类：

依托单位：厦门大学

批准年份：2012

结题年份：2015

起止时间：2013-01-01 - 2015-12-31

项目状态：已结题

项目参与者：陈挺,邹权,江灏,陈培芝,刘麟,曹建国,张华飞

关键词：

测序偏差建模差异表达基因高通量转录组测序技术新一代测序技术

结项摘要

This proposal aims to develop the methods to model the sequencing bias and identify the differentially expressed genes with RNA-Seq datasets, produced with next generation sequencing technique. Different with traditional processes, all the analysis is based on the information of nucleotide base instead of gene or exon unit in order to make full use of the high resolution information with RNA-Seq datasets, and current exon and gene unit processing can be represented as the integral of nucleotide base. .System identification techniques are introduced into the RNA-Seq datasets. The potential factors causing sequencing bias are treated as independent variables, and the observed reads number for each nucleotide base is the response variable. Bias tendency of single factor are evaluated with sampling statistical technique to obtain the correct model structure. The complete bias model can be depicted as linear or nonlinear model. The two-step scheme are proposed for optimization. The least square method combined with weight functions and the EM algorithm are applied to estimate the undetermined parameters. Based on the corrected reads number for nucleotide base unit, regression, spline fit and L2 error norm techniques are integrated to estimate significance of the difference between the reads number of the same nucleotide sequence under two conditions, to identify the differentially expressed genes. The proper setting of integral interval in the L2 error norm can cover the current exon-unit and gene-unit processing methods; and the spline technique can handle the discontinuous reads distribution between different exons. Based on the approach, the conditions without technical/ biological replicates can be compared more accurately. Furthermore, the bias caused by gene length and sequencing depth can be avoided effectively. With the approach, the identification results, potential relationship and internal mechanism among the respective methods based on base/exon/gene unit will be analyzed. .Overall, with the introducing system identification techniques into the RNA-Seq datasets analysis, novel modeling and optimization ideas are explored to make the most of the high resolution information from RNA-Seq. In biology , we target to obtain the valid and accurate sequencing bias correcting model and differentially-expressed gene identification. In information, based on system identification, we effort to explore the suitable research ideaes for RNA-Seq and further bioinformatics analysis to achieve effective,valid and explicit-biological-meaning modeling and optimization approaches.

本项目对高通量RNA-Seq数据的偏差建模和差异表达基因识别展开研究。本项目将碱基视为信息处理的基本单位，而外显子、基因等都可视为碱基单元的某种积分。分析偏差时，将可能的偏差因素作为解释变量，观测到的碱基短序列匹配数作为响应变量，通过采样获取各因素对短序列分布的影响趋势，从而获取正确的模型结构，构建针对不同测序协议、平台适用的模型结构；提出两步骤优化方法，采用权系数与最小二乘的混合估计法、EM算法，对建立的线性或非线性模型寻优偏差权重，修正碱基位上的短序列匹配数。基于修正结果，提出基于碱基单元的差异表达基因识别方法。通过利用碱基的位置对应信息和短序列匹配数信息，结合线性拟合、样条回归、L2误差范数等技术识别不同条件下碱基序列上的匹配数差异的显著性，进而识别出差异表达基因。以上思路在统计方法中引入系统辨识的思想，以碱基为单位，充分利用RNA-Seq数据带来的高分辨率信息进行后续的数据分析。

项目摘要

新一代高通量测序受到极大关注。利用宏基因组和宏转录组高通量测序数据比较微生物群落间的差异成为重要的科学问题。该差异不仅涉及物种的丰度差异，也涉及物种的组成差异。本项目基于高通量测序数据对不同样本，特别是微生物群落之间差异的分析方法进行研究和探索，建立以下模型和平台，并运用到不同类型的高通量测序数据中：.①基于k-tuple频度的序列显著性统计模型及平台，基于定阶次马尔科夫模型的频度转移概率估计方法，无需配准，不需要种群的生物种类和基因组序列参考信息，仅仅基于数据本身分析不同样本和种群间的差异。该模型应用于99个海洋水域的微生物群落宏转录组数据以及16个宏基因组数据，利用该模型研究分析不同种群间的差异度，环境梯度的影响。.②基于RNA-Seq的基因组注解数据库评估模型：基于RNA-Seq至注解参考序列的配准信息提出在基因、转录物、外显子、剪切位点和碱基层面的特异性和敏感性度量指标, 进而评估基因组注解数据库的完整性和精确性。对5 个代表性的人类基因组注解数据库评估, 并构建人体综合准确注解数据库; 此外, 通过对现有恒河猴基因组注解数据库的评估发现该数据库的完整性的欠缺, 及其注解精确性与人类数据库的注解水平的差距。该评估体系可对各物种的基因组注解信息进行全面、快速和高效的评估及验证，为差异表达基因选择合理的注解数据库提供了很好的参考依据。.③基于数据配准的全基因组注解动态规划模型：基于物种的相似性，利用已注解物种的基因组注解信息对未注解物种的基因组进行注解。通过序列比对，建立基于配准性能、配准位置关系、顺序和距离关系的动态规划模型，无需收集参考数据库和生物实验，快速建立具有足够精确度和完整性的物种注解信息，提供重要的参考信息。.④基于长k-tuple的信息显著性能初步分析：前期研究都集中在2-10bp的tuple中，主要关注tuple分布的总体统计特性。利用长k-tuple(k≥30)，基于文本挖掘的信息聚类进行初步探索，发现长k-tuple独有的优势。.研究得到以下结论：.①基于2-10bp的tuple统计模型能较好地度量不同样本间的差异程度。对微生物群落能反映外部环境对群落的影响梯度。.②基于RNA-Seq高通量测序数据有效快速地验证全基因组的注解信息，为注解信息的评估和完善提供参考信息。.③当k-tuple变长，信息量变大，是很好的探索

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：

发表时间：2021

DOI：10.3969/j.issn.1002-3550.2015.06.010

发表时间：2015

DOI：

发表时间：2016

DOI：10.3799/dqkx.2019.110

发表时间：2019

王颖的其他基金

批准号：11701252

批准年份：2017

资助金额：23.00

项目类别：青年科学基金项目

批准号：41603111

批准年份：2016

资助金额：20.00

项目类别：青年科学基金项目

批准号：81703961

批准年份：2017

资助金额：20.00

项目类别：青年科学基金项目

批准号：10926135

批准年份：2009

资助金额：3.00

项目类别：数学天元基金项目

批准号：81402090

批准年份：2014

资助金额：23.00

项目类别：青年科学基金项目

批准号：61305049

批准年份：2013

资助金额：24.00

项目类别：青年科学基金项目

批准号：81470095

批准年份：2014

资助金额：30.00

项目类别：面上项目

批准号：31801999

批准年份：2018

资助金额：25.00

项目类别：青年科学基金项目

批准号：81572849

批准年份：2015

资助金额：57.00

项目类别：面上项目

批准号：31370884

批准年份：2013

资助金额：80.00

项目类别：面上项目

批准号：51574177

批准年份：2015

资助金额：65.00

项目类别：面上项目

批准号：31570088

批准年份：2015

资助金额：62.00

项目类别：面上项目

批准号：71303220

批准年份：2013

资助金额：22.00

项目类别：青年科学基金项目

批准号：21607086

批准年份：2016

资助金额：20.00

项目类别：青年科学基金项目

批准号：60772155

批准年份：2007

资助金额：26.00

项目类别：面上项目

批准号：21203174

批准年份：2012

资助金额：25.00

项目类别：青年科学基金项目

批准号：11626125

批准年份：2016

资助金额：3.00

项目类别：数学天元基金项目

批准号：70273064

批准年份：2002

资助金额：5.00

项目类别：面上项目

批准号：51371063

批准年份：2013

资助金额：80.00

项目类别：面上项目

批准号：31870158

批准年份：2018

资助金额：59.00

项目类别：面上项目

批准号：81903619

批准年份：2019

资助金额：21.00

项目类别：青年科学基金项目

批准号：21177013

批准年份：2011

资助金额：65.00

项目类别：面上项目

批准号：81800852

批准年份：2018

资助金额：21.00

项目类别：青年科学基金项目

批准号：51578070

批准年份：2015

资助金额：62.00

项目类别：面上项目

批准号：41205077

批准年份：2012

资助金额：25.00

项目类别：青年科学基金项目

批准号：61504153

批准年份：2015

资助金额：21.00

项目类别：青年科学基金项目

批准号：41301322

批准年份：2013

资助金额：26.00

项目类别：青年科学基金项目

批准号：50975019

批准年份：2009

资助金额：30.00

项目类别：面上项目

批准号：41304081

批准年份：2013

资助金额：25.00

项目类别：青年科学基金项目

批准号：61774052

批准年份：2017

资助金额：63.00

项目类别：面上项目

批准号：81671670

批准年份：2016

资助金额：58.00

项目类别：面上项目

批准号：60772127

批准年份：2007

资助金额：29.00

项目类别：面上项目

批准号：11701068

批准年份：2017

资助金额：22.00

项目类别：青年科学基金项目

批准号：49236120

批准年份：1992

资助金额：80.00

项目类别：重点项目

批准号：70703005

批准年份：2007

资助金额：17.00

项目类别：青年科学基金项目

批准号：31300034

批准年份：2013

资助金额：23.00

项目类别：青年科学基金项目

批准号：81100206

批准年份：2011

资助金额：23.00

项目类别：青年科学基金项目

批准号：30500024

批准年份：2005

资助金额：26.00

项目类别：青年科学基金项目

批准号：71473046

批准年份：2014

资助金额：62.00

项目类别：面上项目

批准号：71401004

批准年份：2014

资助金额：23.00

项目类别：青年科学基金项目

批准号：21305046

批准年份：2013

资助金额：25.00

项目类别：青年科学基金项目

批准号：30801454

批准年份：2008

资助金额：22.00

项目类别：青年科学基金项目

批准号：60906048

批准年份：2009

资助金额：21.00

项目类别：青年科学基金项目

批准号：51907025

批准年份：2019

资助金额：25.00

项目类别：青年科学基金项目

批准号：41807173

批准年份：2018

资助金额：24.00

项目类别：青年科学基金项目

批准号：81772631

批准年份：2017

资助金额：45.00

项目类别：面上项目

批准号：48670245

批准年份：1986

资助金额：4.00

项目类别：面上项目

批准号：21673220

批准年份：2016

资助金额：65.00

项目类别：面上项目

批准号：61201294

批准年份：2012

资助金额：25.00

项目类别：青年科学基金项目

批准号：81071999

批准年份：2010

资助金额：35.00

项目类别：面上项目

批准号：51005163

批准年份：2010

资助金额：20.00

项目类别：青年科学基金项目

批准号：50679072

批准年份：2006

资助金额：31.00

项目类别：面上项目

批准号：81572422

批准年份：2015

资助金额：55.00

项目类别：面上项目

批准号：31601075

批准年份：2016

资助金额：17.00

项目类别：青年科学基金项目

批准号：61404070

批准年份：2014

资助金额：24.00

项目类别：青年科学基金项目

批准号：81200042

批准年份：2012

资助金额：23.00

项目类别：青年科学基金项目

批准号：61874124

批准年份：2018

资助金额：63.00

项目类别：面上项目

批准号：81873833

批准年份：2018

资助金额：57.00

项目类别：面上项目

批准号：31200368

批准年份：2012

资助金额：25.00

项目类别：青年科学基金项目

批准号：50708007

批准年份：2007

资助金额：22.00

项目类别：青年科学基金项目

批准号：51602341

批准年份：2016

资助金额：20.00

项目类别：青年科学基金项目

批准号：31401708

批准年份：2014

资助金额：26.00

项目类别：青年科学基金项目

批准号：40271004

批准年份：2002

资助金额：32.00

项目类别：面上项目

批准号：81873868

批准年份：2018

资助金额：56.00

项目类别：面上项目

批准号：61003041

批准年份：2010

资助金额：19.00

项目类别：青年科学基金项目

批准号：81200596

批准年份：2012

资助金额：23.00

项目类别：青年科学基金项目

批准号：30771965

批准年份：2007

资助金额：35.00

项目类别：面上项目

批准号：51008199

批准年份：2010

资助金额：20.00

项目类别：青年科学基金项目

批准号：51903114

批准年份：2019

资助金额：25.00

项目类别：青年科学基金项目

批准号：31872921

批准年份：2018

资助金额：59.00

项目类别：面上项目

批准号：11803020

批准年份：2018

资助金额：26.00

项目类别：青年科学基金项目

批准号：61304171

批准年份：2013

资助金额：26.00

项目类别：青年科学基金项目

批准号：31000790

批准年份：2010

资助金额：20.00

项目类别：青年科学基金项目

批准号：31702195

批准年份：2017

资助金额：25.00

项目类别：青年科学基金项目

批准号：61673324

批准年份：2016

资助金额：57.00

项目类别：面上项目

批准号：81501456

批准年份：2015

资助金额：18.00

项目类别：青年科学基金项目

批准号：21572023

批准年份：2015

资助金额：65.00

项目类别：面上项目

批准号：21903024

批准年份：2019

资助金额：25.00

项目类别：青年科学基金项目

批准号：81904235

批准年份：2019

资助金额：20.00

项目类别：青年科学基金项目

批准号：31700269

批准年份：2017

资助金额：24.00

项目类别：青年科学基金项目

批准号：61340056

批准年份：2013

资助金额：18.00

项目类别：专项基金项目

批准号：71673055

批准年份：2016

资助金额：49.00

项目类别：面上项目

批准号：61501459

批准年份：2015

资助金额：19.00

项目类别：青年科学基金项目

批准号：21606018

批准年份：2016

资助金额：20.00

项目类别：青年科学基金项目

批准号：41401182

批准年份：2014

资助金额：23.00

项目类别：青年科学基金项目

批准号：71874161

批准年份：2018

资助金额：47.50

项目类别：面上项目

批准号：61575222

批准年份：2015

资助金额：60.00

项目类别：面上项目

批准号：51401121

批准年份：2014

资助金额：25.00

项目类别：青年科学基金项目

批准号：11602159

批准年份：2016

资助金额：22.00

项目类别：青年科学基金项目

批准号：61501044

批准年份：2015

资助金额：20.00

项目类别：青年科学基金项目

批准号：51774214

批准年份：2017

资助金额：60.00

项目类别：面上项目

批准号：81200931

批准年份：2012

资助金额：23.00

项目类别：青年科学基金项目

批准号：31170828

批准年份：2011

资助金额：50.00

项目类别：面上项目

批准号：61108078

批准年份：2011

资助金额：26.00

项目类别：青年科学基金项目

批准号：81171345

批准年份：2011

资助金额：58.00

项目类别：面上项目

批准号：30970140

批准年份：2009

资助金额：30.00

项目类别：面上项目

批准号：21901151

批准年份：2019

资助金额：25.00

项目类别：青年科学基金项目

批准号：81801297

批准年份：2018

资助金额：23.00

项目类别：青年科学基金项目

批准号：51602314

批准年份：2016

资助金额：20.00

项目类别：青年科学基金项目

100

批准号：61571343

批准年份：2015

资助金额：57.00

项目类别：面上项目

相似国自然基金

高通量RNA-Seq测序数据的基因表达水平建模研究

批准号：61170152

批准年份：2011

负责人：刘学军

学科分类：F0213

资助金额：56.00

项目类别：面上项目

基于时间序列RNA-Seq测序数据的基因表达动态分析建模研究

批准号：61802193

批准年份：2018

负责人：张礼

学科分类：F0213

资助金额：25.00

项目类别：青年科学基金项目

基于RNA-Seq技术的不同倍性麻竹基因表达差异研究

批准号：31200508

批准年份：2012

负责人：乔桂荣

学科分类：C1610

资助金额：23.00

项目类别：青年科学基金项目

基于高通量数据的基因调控网络构建模型和方法研究

批准号：61402457

批准年份：2014

负责人：张秀军

学科分类：F0213

资助金额：24.00

项目类别：青年科学基金项目

高通量RNA-Seq数据的偏差建模和差异表达基因识别

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

长链基因间非编码RNA 00681竞争性结合miR-16促进黑素瘤细胞侵袭和迁移

混凝土SHPB试验技术研究进展

贵州织金洞洞穴CO2的来源及其空间分布特征

岩石/结构面劣化导致巴东组软硬互层岩体强度劣化的作用机制

王颖的其他基金

几类分数阶方程边值问题解的定性研究

典型过渡金属水生生物急性毒性阈值预测研究

培土生金法调控TNKS2/Axin1/wnt 信号轴抑制脾气虚型非小细胞肺癌转移的机制研究

Boussinesq 方程的整体解和孤立子波

肾癌新基因GSTM3调控区SNP与肾癌易感性及预后的关系

基于贝叶斯模型的鲁棒高光谱解混方法研究

人疱疹病毒8型复制与SUMO化修饰之间的相互作用及机制研究

基于线粒体全基因组的叉虫责总科系统发育研究

LncRNA RPL37AP1通过调控HNF4A/CEBPA/RPSA轴促使贲门腺癌侵袭迁移的新机制

系统性红斑狼疮中T/B细胞黏附动力学特性及其对病理性抗体产生的影响机制

基于组织控制的Ti2AlNb基合金精密连接内在机制及其接头疲劳行为分析

建立生长与生产偶联的正反馈筛选体系

耦合生态系统与社会经济系统的海洋渔业管理ECGE模型构建

多孔钙钛矿的理性设计及其选择性催化还原NOx

基于边信息的半脆弱数字图像水印研究

化学气相沉积法制备石墨烯生长机理的计算机模拟研究

分数阶微分方程解的研究

企业危机的市场化解决方案--企业营救理论及应用研究

铜互连自形成阻挡层新方法与相关理论研究

慢病毒核壳蛋白的热稳定性及在反转录中与RNA结合的研究

基于GR/NF-κB/HIF-1α信号通路探讨人参皂苷CK对胶原性关节炎大鼠滑膜细胞能量代谢异常的调控作用

天然溶解性有机质对锑-疏水性有机物复合污染体系在沉积物上吸附-解吸的影响规律和机理

过表达白介素10的间充质干细胞外泌体修复NPDR血视网膜屏障的机制研究

石墨烯掺杂光电芬顿催化剂-介孔粒子电极及其加速电子转移协同催化PPCPs类污染物的机理研究

河谷城市PM2.5污染的高分辨率数值模拟研究

三维堆叠DRAM的低功耗刷新技术研究

黄土塬区长期施肥和轮作对土壤氮循环微生物及生态功能的影响

管道内表面三维形貌视觉检测理论与技术研究

超临界CO2石油增采和油田封存过程的微观机理和定量规律及注采方案优化研究

多维电场调制功率场效应晶体管辐射效应与加固机理研究

基于多模态影像的双相障碍脑改变与肠道菌群失调相互作用及机制研究

多机器人系统在动态未知环境中的决策和控制研究

几类非线性浅水波方程的研究

黄海海底辐射沙洲形成演变研究

我国农村地区公共卫生项目成本核算研究

IS204转座酶介导的微型转座系统的催化机理及其在合成生物学中的应用

活化巨噬细胞源Exosome促淋巴管新生致AS斑块不稳定的机制研究

细菌脂多糖对宿主蛋白类泛素化修饰的影响

基于结构方程模型的艾滋病卫生服务利用影响因素及策略干预研究

基于注视集中度的驾驶员非注意状态检测研究

自由基诱导DNA损伤的石墨烯纳米电化学分析

重组鲨肝刺激物类似物r-sHSA抗纤维化作用机制研究

铜互连体系ZrxSiy超薄扩散阻挡层的性能与机理研究

适应新型调频资源的柔性调频服务及其调度方法研究

鄱阳湖流域蒸散发对植被恢复的动态响应过程研究

circNEK6上调HNF4A/NEK6/Cyclin D2表达的分子机制及其在促进贲门腺癌发生发展中的作用

潮滩沉积作用与沉积相

化学气相沉积法可控合成碳纳米管的理论研究

基于视觉认知特性的乳腺X线图像分析与理解

DNA加合物εdA和εdC在乙肝相关性肝癌发生中的作用及相关机制研究

Al2O3陶瓷反应金属化及其与铝合金扩散钎焊机理研究

多孔热水浮射流的数值模拟及实验研究

HBV相关性肝癌中Mig调控CD44+CD133+肝癌干细胞失巢凋亡的作用及其分子机制研究

基于高通量多层次的胆管癌测序数据进行癌症免疫治疗的新抗原筛选及评估

双绒面ZnO:Al薄膜的制备及其陷光特性研究

组蛋白甲基转移酶EZH2在慢性血栓栓塞性肺动脉高压血管重塑中的作用机制

面向嵌入式深度神经网络处理器的低功耗设计技术研究

CLDN10在体外受精胚胎植入过程中的作用

降水格局变化对虎尾草繁殖策略的影响

漆酶电活化及其催化电化学降解水中有机污染物的原理和方法

紫外波段相位匹配的磷酸盐非线性光学晶体的合成及性能研究

中国甜菜坏死黄脉病毒进化过程中RNA3新tetrad 基序的致病机制分析

河海交互作用与苏北平原成因研究

结核抗原特异性免疫记忆T细胞功能的代谢调控机制及临床意义

超高密度磁记录用分立存储介质中软磁/硬磁交换耦合的复合记录单元的结构设计及性能研究

Ghrelin对胰岛β细胞分泌胰岛素和增殖的影响及分子机制

T细胞受体（TCR）介导的胞内信号对T细胞免疫自稳的负向调节作用和T细胞分化影响的分子机制研究

新型方钢管混凝土梁柱框架结构节点抗震性能研究及充填密实度预测

芳纶纤维表面光固化纳米复合涂层的制备及其对复合材料界面的增强机理研究

锌指结构转录因子在甜菜坏死黄脉病毒侵染过程中的作用机制研究