高通量测序的可计算建模与应用基础算法

基本信息
批准号:91530105
项目类别:重大研究计划
资助金额:25.00
负责人:李雷
学科分类:
依托单位:中国科学院数学与系统科学研究院
批准年份:2015
结题年份:2016
起止时间:2016-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:万林,王安琪,王博,赵乐天,王占宇,张升,赵文虓,李峥
关键词:
随机不确定模型混合建模模型约化可计算建模
结项摘要

High throughput sequencing is a key technology for molecular/genomic biology and personalized medicine. Based on our pilot project supported by the “High performance scientific computation: fundamental algorithms and computable modeling, we plan to conduct research in three basic computation problems in high throughput sequencing: base-calling, read mapping, and genome assembly. The project aims at developing original computable models and associated fundamental algorithms. The specific aims are as follows. First, we continue our effort to develop a base-calling system based on the Illumina technology. The major techniques include the blind inversion principle we developed and parallel computation via the decomposition of a complicated problem. Not only need we reduce base-calling errors, but also speed up computation. Second, based on the original SEME method we developed, design read-mapping algorithms that meet the requirement on speed, sensitivity, and specificity for a specific computational biology problem. Third, we view genome assembly as an inverse problem in computational biology. The challenge mainly lies in the uncertainty caused by widespread repetitive elements and all kinds of errors occurred in the sequencing process: library preparation, PCR amplification, instrument, imaging, etc. Our focus is to develop an approach that is complementary to the current mainstream assembly method based on the notion of De Bruijn graph and Eulerian path. Our research will enhance the application of DNA sequencing to health, medicine and agriculture in China.

高通量DNA测序是开展现代分子生物学研究和实现个体化医疗的核心技术。在“高性能科学计算的基础算法与可计算建模”重大研究计划资助的培育项目的前期研究基础上,我们计划针对高通量测序技术中三个基础计算问题:碱基辨识、序列映射、和基因组拼接,建立原创的可计算模型和相应的应用基础算法。第一,继续发展基于Illumina技术的碱基辨识系统,方法采用盲反问题原则和分解复杂问题以实现并行运算,一方面减少错误,一方面提高速度。第二,基于我们原创的SEME算法,根据生物问题对映射速度、灵敏度、特异度的需求,通过概率计算设计相应的序列映射方案。第三,基因组拼接是计算生物学中的数学反问题,挑战主要来源于基因组中广泛存在的重复序列以及测序过程中各种误差造成的不确定性。我们的重点是研发互补于目前主流的单纯基于De Bruijn图的基因组拼接方案。我们的研究将会促进DNA测序为中国的健康、医学、农业等事业服务。

项目摘要

本课题在“高性能科学计算的基础算法与可计算建模”重大研究计划资助的培育项目“高通量测序技术的可计算建模与碱基辨识的算法与评估”的前期探索研究基础上,针对高通量测序技术中三个基础计算问题:碱基辨识、序列映射、和基因组拼接,建立了原创的可计算模型和相应的应用基础算法。最近完成了中国第一个申请了知识产权的基于Illumina技术的碱基辨识系统3DEC,它在C++平台和matlab平台各有一个并行运算的版本。比起目前商用的pipeline,它可以将测序错误减少60%以上。而且,通过实现并行运算,计算时间已经接近商业软件,可以在实际中应用。 我们的SEME序列映射方法已经比流行的BOWTIE2快了一个量级,这可以节省大量的电力资源。这个映射方法是我们其它工作如基因组拼接的基础,这一年针对下游的应用,我们改进并维护了SEME软件。本课题基于新一代测序数据,研发了互补于目前主流的单纯基于De Bruijn图和Eulerian路径方法的基因组拼接方案BAUM,这个方案综合利用了序列映射、De Brujin图、和统计分析。用我们开发的方法BAUM拼接了野生水稻Rufipogon,长雄野生水稻(Oryza longistaminata ), 高原鼢鼠的基因组。contig的N50长度是衡量所拼接出的基因组的连续性的一个重要指标,BAUM目前的N50结果好于常用方法3-6倍。此外,课题还开展了与高通量测序相关的生物系统理论和医学组学数据分析研究。包括生物系统的数学可计算建模的理论工作,以及基于高通量组学数据研究二型糖尿病机制的工作。本课题的研究成果申请了多项中国和国际专利,其中两项获得授权。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
4

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

李雷的其他基金

批准号:21503184
批准年份:2015
资助金额:21.00
项目类别:青年科学基金项目
批准号:91130008
批准年份:2011
资助金额:70.00
项目类别:重大研究计划
批准号:81360369
批准年份:2013
资助金额:50.00
项目类别:地区科学基金项目
批准号:11871462
批准年份:2018
资助金额:52.00
项目类别:面上项目
批准号:71562008
批准年份:2015
资助金额:30.88
项目类别:地区科学基金项目
批准号:21503092
批准年份:2015
资助金额:21.00
项目类别:青年科学基金项目
批准号:61405079
批准年份:2014
资助金额:25.00
项目类别:青年科学基金项目
批准号:81171066
批准年份:2011
资助金额:95.00
项目类别:面上项目
批准号:30970941
批准年份:2009
资助金额:30.00
项目类别:面上项目
批准号:50802087
批准年份:2008
资助金额:20.00
项目类别:青年科学基金项目
批准号:81072006
批准年份:2010
资助金额:32.00
项目类别:面上项目
批准号:81671242
批准年份:2016
资助金额:60.00
项目类别:面上项目
批准号:41905117
批准年份:2019
资助金额:26.00
项目类别:青年科学基金项目
批准号:31770107
批准年份:2017
资助金额:55.00
项目类别:面上项目
批准号:61070234
批准年份:2010
资助金额:33.00
项目类别:面上项目
批准号:31802299
批准年份:2018
资助金额:22.00
项目类别:青年科学基金项目
批准号:61078074
批准年份:2010
资助金额:45.00
项目类别:面上项目

相似国自然基金

1

高通量测序技术的可计算建模与碱基辨识的算法和评估

批准号:91130008
批准年份:2011
负责人:李雷
学科分类:A0504
资助金额:70.00
项目类别:重大研究计划
2

激光惯性约束聚变的可计算建模与算法研究

批准号:91130002
批准年份:2011
负责人:李敬宏
学科分类:A0504
资助金额:300.00
项目类别:重大研究计划
3

问题驱动的大型优化问题的可计算建模与算法探索

批准号:91130007
批准年份:2011
负责人:何炳生
学科分类:A0405
资助金额:70.00
项目类别:重大研究计划
4

动态网络生物标记识别的可计算建模与算法

批准号:91330114
批准年份:2013
负责人:吴凌云
学科分类:C0504
资助金额:65.00
项目类别:重大研究计划