高通量测序技术的可计算建模与碱基辨识的算法和评估

基本信息
批准号:91130008
项目类别:重大研究计划
资助金额:70.00
负责人:李雷
学科分类:
依托单位:中国科学院数学与系统科学研究院
批准年份:2011
结题年份:2014
起止时间:2012-01-01 - 2014-12-31
项目状态: 已结题
项目参与者:万林,赵文虓,陈士剑,王琳,王安琪
关键词:
统计计算算法盲反问题新一代测序碱基辨识可计算建模
结项摘要

新一代测序技术具有高通量、高分辨率、低成本等优点,它为有效地检测低频遗传变异与低丰表达信息提供了崭新的契机。如何区分测序错误和真正的低频遗传变异和低丰表达信息是新一代测序技术急需解决的关键问题。测序系统首先探测并且记录生物序列的光/电信号,碱基辨识是指从光/电信号通过计算还原相应的生物序列并加以评估的过程,它是测序技术的基石。本项目计划在我们原有工作基础上,为新一代测序的主流技术平台建立机理与数据互补的计算模型,开发与国产试剂相匹配的碱基辨识方法,发展比较测序原始光/电信号的统计模型和基于似然函数的检测变异的新算法以及相应的统计评估,发展跨测序平台的比较测序原始光/电信号的统计模型和检测变异的新算法及统计评估,对第三代测序技术的碱基辨识做前瞻性的研究。我们希望这个项目的研究通过高性能计算帮助中国的测序产业不仅做到规模最大,而且质量最好,从而为中国的健康、医学、农业事业奠定一个坚实基础。

项目摘要

新一代测序技术具有高通量、低成本等优点,它使得大规模获取个人全基因组数据成为可能,进而为恶性肿瘤、糖尿病等重大疾病的诊断和个体化治疗提供更系统的科学依据和崭新的希望。本培育项目研究了高通量测序技术中几个核心的可计算建模问题和基础算法。首先对Illumina测序仪的测序原始数据做了系统性的可计算建模。 模型的核心是三个混杂算子,并基于李雷原创的盲反问题原则提出了自适应解和算法。从概念上看,首先指出了文献中一类从未提到的由分子簇空间混杂引起的碱基辨识错误,并将它们基本消除。通过对几个典型的数据评测,我们的方法目前可以将现有测序仪自带的碱基辨识的错误减少达到约40%。本项目研究了新一代测序技术中最基础的序列映射算法。近年来Illumina技术不断改进,读长超过150个碱基而且错误基本上是替换错误。根据这些特点,我们设计了一种原创的高速序列映射方法SEME,它由“单种子搜寻”和“延拓”两步组成。经过概率计算发现,通过合适地选取种子长度,在基因组中能够无错误地搜寻到种子的概率可以达到足够大,同时控制假阳性概率。在延拓步骤,提出了自匹配函数的概念,并在此基础上设计了线性复杂性的算法。通过在一些数据集上测试,SEME的映射速度已达到目前最流行的BOWTIE2的15倍。而且SEME具有以下独特的特点:测序数据质量越高,映射速度越快。我们评估了算法的灵敏性和特异性,这在文献中还是首次。本项目提出综合利用序列映射、De Brujin图、和统计分析的基因组拼接方法,这个方法目前在拼装高杂合度的野生水稻Rubipogon基因组项目中已得到比较理想的结果。本项目创新性地建立了RNA降解的数学模型,进而准确的校正了由RNA降解引起的测序序列非均匀分布带来的系统偏差。 同时,为了克服RNA-Seq重复样本少、参数多对挑选样本间差异表达基因造成的假阳性高的影响,巧妙地基于现有统计方法以及信息融合技术,提出了基于整合外显子显著性的差异表达基因检测方法。本项目的研究初步系统地揭示了纳米粒子[Gd@C82(OH)22]n抗癌的分子机制。我们利用本研究组原创的高通量基因表达数据的可计算模型,分析了一个对照实验的基因表达芯片数据,发现 [Gd@C82(OH)22]n通过细胞内质网压力和TP53相关的调控网络诱导了癌症细胞MCF-7的细胞凋亡。[Gd@C82(OH)22]n有望成为中国原创的抗癌药物。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

针灸治疗胃食管反流病的研究进展

针灸治疗胃食管反流病的研究进展

DOI:
发表时间:2022
3

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022
4

物联网中区块链技术的应用与挑战

物联网中区块链技术的应用与挑战

DOI:10.3969/j.issn.0255-8297.2020.01.002
发表时间:2020
5

一种改进的多目标正余弦优化算法

一种改进的多目标正余弦优化算法

DOI:
发表时间:2019

李雷的其他基金

批准号:21503184
批准年份:2015
资助金额:21.00
项目类别:青年科学基金项目
批准号:81360369
批准年份:2013
资助金额:50.00
项目类别:地区科学基金项目
批准号:11871462
批准年份:2018
资助金额:52.00
项目类别:面上项目
批准号:71562008
批准年份:2015
资助金额:30.88
项目类别:地区科学基金项目
批准号:21503092
批准年份:2015
资助金额:21.00
项目类别:青年科学基金项目
批准号:61405079
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:81171066
批准年份:2011
资助金额:95.00
项目类别:面上项目
批准号:91530105
批准年份:2015
资助金额:25.00
项目类别:重大研究计划
批准号:30970941
批准年份:2009
资助金额:30.00
项目类别:面上项目
批准号:50802087
批准年份:2008
资助金额:20.00
项目类别:青年科学基金项目
批准号:81072006
批准年份:2010
资助金额:32.00
项目类别:面上项目
批准号:81671242
批准年份:2016
资助金额:60.00
项目类别:面上项目
批准号:41905117
批准年份:2019
资助金额:26.00
项目类别:青年科学基金项目
批准号:31770107
批准年份:2017
资助金额:55.00
项目类别:面上项目
批准号:61070234
批准年份:2010
资助金额:33.00
项目类别:面上项目
批准号:31802299
批准年份:2018
资助金额:22.00
项目类别:青年科学基金项目
批准号:61078074
批准年份:2010
资助金额:45.00
项目类别:面上项目

相似国自然基金

1

高通量测序的可计算建模与应用基础算法

批准号:91530105
批准年份:2015
负责人:李雷
学科分类:A0504
资助金额:25.00
项目类别:重大研究计划
2

激光惯性约束聚变的可计算建模与算法研究

批准号:91130002
批准年份:2011
负责人:李敬宏
学科分类:A0504
资助金额:300.00
项目类别:重大研究计划
3

问题驱动的大型优化问题的可计算建模与算法探索

批准号:91130007
批准年份:2011
负责人:何炳生
学科分类:A0405
资助金额:70.00
项目类别:重大研究计划
4

动态网络生物标记识别的可计算建模与算法

批准号:91330114
批准年份:2013
负责人:吴凌云
学科分类:C0504
资助金额:65.00
项目类别:重大研究计划