高通量测序的可计算建模与应用基础算法

基本信息

批准号：91530105

项目类别：重大研究计划

资助金额：25.00

负责人：李雷

学科分类：

依托单位：中国科学院数学与系统科学研究院

批准年份：2015

结题年份：2016

起止时间：2016-01-01 - 2016-12-31

项目状态：已结题

项目参与者：万林,王安琪,王博,赵乐天,王占宇,张升,赵文虓,李峥

关键词：

随机不确定模型混合建模模型约化可计算建模

结项摘要

High throughput sequencing is a key technology for molecular/genomic biology and personalized medicine. Based on our pilot project supported by the “High performance scientific computation: fundamental algorithms and computable modeling, we plan to conduct research in three basic computation problems in high throughput sequencing: base-calling, read mapping, and genome assembly. The project aims at developing original computable models and associated fundamental algorithms. The specific aims are as follows. First, we continue our effort to develop a base-calling system based on the Illumina technology. The major techniques include the blind inversion principle we developed and parallel computation via the decomposition of a complicated problem. Not only need we reduce base-calling errors, but also speed up computation. Second, based on the original SEME method we developed, design read-mapping algorithms that meet the requirement on speed, sensitivity, and specificity for a specific computational biology problem. Third, we view genome assembly as an inverse problem in computational biology. The challenge mainly lies in the uncertainty caused by widespread repetitive elements and all kinds of errors occurred in the sequencing process: library preparation, PCR amplification, instrument, imaging, etc. Our focus is to develop an approach that is complementary to the current mainstream assembly method based on the notion of De Bruijn graph and Eulerian path. Our research will enhance the application of DNA sequencing to health, medicine and agriculture in China.

高通量DNA测序是开展现代分子生物学研究和实现个体化医疗的核心技术。在“高性能科学计算的基础算法与可计算建模”重大研究计划资助的培育项目的前期研究基础上，我们计划针对高通量测序技术中三个基础计算问题：碱基辨识、序列映射、和基因组拼接，建立原创的可计算模型和相应的应用基础算法。第一，继续发展基于Illumina技术的碱基辨识系统,方法采用盲反问题原则和分解复杂问题以实现并行运算，一方面减少错误，一方面提高速度。第二，基于我们原创的SEME算法，根据生物问题对映射速度、灵敏度、特异度的需求，通过概率计算设计相应的序列映射方案。第三，基因组拼接是计算生物学中的数学反问题，挑战主要来源于基因组中广泛存在的重复序列以及测序过程中各种误差造成的不确定性。我们的重点是研发互补于目前主流的单纯基于De Bruijn图的基因组拼接方案。我们的研究将会促进DNA测序为中国的健康、医学、农业等事业服务。

项目摘要

本课题在“高性能科学计算的基础算法与可计算建模”重大研究计划资助的培育项目“高通量测序技术的可计算建模与碱基辨识的算法与评估”的前期探索研究基础上，针对高通量测序技术中三个基础计算问题：碱基辨识、序列映射、和基因组拼接，建立了原创的可计算模型和相应的应用基础算法。最近完成了中国第一个申请了知识产权的基于Illumina技术的碱基辨识系统3DEC，它在C++平台和matlab平台各有一个并行运算的版本。比起目前商用的pipeline，它可以将测序错误减少60%以上。而且，通过实现并行运算，计算时间已经接近商业软件，可以在实际中应用。我们的SEME序列映射方法已经比流行的BOWTIE2快了一个量级，这可以节省大量的电力资源。这个映射方法是我们其它工作如基因组拼接的基础，这一年针对下游的应用，我们改进并维护了SEME软件。本课题基于新一代测序数据，研发了互补于目前主流的单纯基于De Bruijn图和Eulerian路径方法的基因组拼接方案BAUM，这个方案综合利用了序列映射、De Brujin图、和统计分析。用我们开发的方法BAUM拼接了野生水稻Rufipogon，长雄野生水稻(Oryza longistaminata )，高原鼢鼠的基因组。contig的N50长度是衡量所拼接出的基因组的连续性的一个重要指标，BAUM目前的N50结果好于常用方法3-6倍。此外，课题还开展了与高通量测序相关的生物系统理论和医学组学数据分析研究。包括生物系统的数学可计算建模的理论工作，以及基于高通量组学数据研究二型糖尿病机制的工作。本课题的研究成果申请了多项中国和国际专利，其中两项获得授权。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：10.13334/j.0258-8013.pcsee.190276

发表时间：2020

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：10.14050/j.cnki.1672-9250.2017.02.014

发表时间：2017

DOI：10.16383/j.aas.c180673

发表时间：2021

李雷的其他基金

批准号：21503184

批准年份：2015

资助金额：21.00

项目类别：青年科学基金项目

批准号：91130008

批准年份：2011

资助金额：70.00

项目类别：重大研究计划

批准号：81360369

批准年份：2013

资助金额：50.00

项目类别：地区科学基金项目

批准号：11871462

批准年份：2018

资助金额：52.00

项目类别：面上项目

批准号：71562008

批准年份：2015

资助金额：30.88

项目类别：地区科学基金项目

批准号：21503092

批准年份：2015

资助金额：21.00

项目类别：青年科学基金项目

批准号：61405079

批准年份：2014

资助金额：25.00

项目类别：青年科学基金项目

批准号：81171066

批准年份：2011

资助金额：95.00

项目类别：面上项目

批准号：30970941

批准年份：2009

资助金额：30.00

项目类别：面上项目

批准号：50802087

批准年份：2008

资助金额：20.00

项目类别：青年科学基金项目

批准号：81072006

批准年份：2010

资助金额：32.00

项目类别：面上项目

批准号：81671242

批准年份：2016

资助金额：60.00

项目类别：面上项目

批准号：41905117

批准年份：2019

资助金额：26.00

项目类别：青年科学基金项目

批准号：31770107

批准年份：2017

资助金额：55.00

项目类别：面上项目

批准号：61070234

批准年份：2010

资助金额：33.00

项目类别：面上项目

批准号：31802299

批准年份：2018

资助金额：22.00

项目类别：青年科学基金项目

批准号：61078074

批准年份：2010

资助金额：45.00

项目类别：面上项目

相似国自然基金

高通量测序技术的可计算建模与碱基辨识的算法和评估

批准号：91130008

批准年份：2011

负责人：李雷

学科分类：A0504

资助金额：70.00

项目类别：重大研究计划

激光惯性约束聚变的可计算建模与算法研究

批准号：91130002

批准年份：2011

负责人：李敬宏

学科分类：A0504

资助金额：300.00

项目类别：重大研究计划

问题驱动的大型优化问题的可计算建模与算法探索

批准号：91130007

批准年份：2011

负责人：何炳生

学科分类：A0405

资助金额：70.00

项目类别：重大研究计划

动态网络生物标记识别的可计算建模与算法

批准号：91330114

批准年份：2013

负责人：吴凌云

学科分类：C0504

资助金额：65.00

项目类别：重大研究计划

高通量测序的可计算建模与应用基础算法

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于国产化替代环境下高校计算机教学的研究

多能耦合三相不平衡主动配电网与输电网交互随机模糊潮流方法

一种基于多层设计空间缩减策略的近似高维优化方法

基于综合治理和水文模型的广西县域石漠化小流域区划研究

二维FM系统的同时故障检测与控制

李雷的其他基金

包埋式金属@碳纳米结构催化剂的构建及其催化氨解制氢研究

高通量测序技术的可计算建模与碱基辨识的算法和评估

CDK2通过泛素蛋白酶体通路靶向调控抑癌基因CDX2对胃癌生物学作用及其机制研究

从组学大数据解析2型糖尿病发生发展分子机制的双重特征分析方法

网络平台运营机制对内容提供商新服务开发绩效的作用机理研究

“黑”TiO2基水气变换催化剂的制备及其热电流传输行为的改性研究

光纤激光器耗散暗孤子动力学特性研究

帕金森氏病转基因斑马鱼模型建立

SIL基因在帕金森氏病中的分子作用机制

巨介电常数材料微波介电性能的评价

基于胰腺癌内皮细胞的miRNAs差异表达及治疗性AngiomiRs的的筛选

Stil基因表达及Shh信号传导对多巴胺类细胞的保护和再生作用机制研究

基于国产高分5号卫星观测的气溶胶成分遥感反演研究

多层液滴微流控芯片提高微生物可培养性的研究

基于信息几何的核方法及其在网络入侵检测系统中的应用研究

西藏朗错两种裸鲤共存的营养生态位分化机制

量子点结合微流控芯片识别循环肿瘤细胞的光学检测方法研究

相似国自然基金