High throughput sequencing is a key technology for molecular/genomic biology and personalized medicine. Based on our pilot project supported by the “High performance scientific computation: fundamental algorithms and computable modeling, we plan to conduct research in three basic computation problems in high throughput sequencing: base-calling, read mapping, and genome assembly. The project aims at developing original computable models and associated fundamental algorithms. The specific aims are as follows. First, we continue our effort to develop a base-calling system based on the Illumina technology. The major techniques include the blind inversion principle we developed and parallel computation via the decomposition of a complicated problem. Not only need we reduce base-calling errors, but also speed up computation. Second, based on the original SEME method we developed, design read-mapping algorithms that meet the requirement on speed, sensitivity, and specificity for a specific computational biology problem. Third, we view genome assembly as an inverse problem in computational biology. The challenge mainly lies in the uncertainty caused by widespread repetitive elements and all kinds of errors occurred in the sequencing process: library preparation, PCR amplification, instrument, imaging, etc. Our focus is to develop an approach that is complementary to the current mainstream assembly method based on the notion of De Bruijn graph and Eulerian path. Our research will enhance the application of DNA sequencing to health, medicine and agriculture in China.
高通量DNA测序是开展现代分子生物学研究和实现个体化医疗的核心技术。在“高性能科学计算的基础算法与可计算建模”重大研究计划资助的培育项目的前期研究基础上,我们计划针对高通量测序技术中三个基础计算问题:碱基辨识、序列映射、和基因组拼接,建立原创的可计算模型和相应的应用基础算法。第一,继续发展基于Illumina技术的碱基辨识系统,方法采用盲反问题原则和分解复杂问题以实现并行运算,一方面减少错误,一方面提高速度。第二,基于我们原创的SEME算法,根据生物问题对映射速度、灵敏度、特异度的需求,通过概率计算设计相应的序列映射方案。第三,基因组拼接是计算生物学中的数学反问题,挑战主要来源于基因组中广泛存在的重复序列以及测序过程中各种误差造成的不确定性。我们的重点是研发互补于目前主流的单纯基于De Bruijn图的基因组拼接方案。我们的研究将会促进DNA测序为中国的健康、医学、农业等事业服务。
本课题在“高性能科学计算的基础算法与可计算建模”重大研究计划资助的培育项目“高通量测序技术的可计算建模与碱基辨识的算法与评估”的前期探索研究基础上,针对高通量测序技术中三个基础计算问题:碱基辨识、序列映射、和基因组拼接,建立了原创的可计算模型和相应的应用基础算法。最近完成了中国第一个申请了知识产权的基于Illumina技术的碱基辨识系统3DEC,它在C++平台和matlab平台各有一个并行运算的版本。比起目前商用的pipeline,它可以将测序错误减少60%以上。而且,通过实现并行运算,计算时间已经接近商业软件,可以在实际中应用。 我们的SEME序列映射方法已经比流行的BOWTIE2快了一个量级,这可以节省大量的电力资源。这个映射方法是我们其它工作如基因组拼接的基础,这一年针对下游的应用,我们改进并维护了SEME软件。本课题基于新一代测序数据,研发了互补于目前主流的单纯基于De Bruijn图和Eulerian路径方法的基因组拼接方案BAUM,这个方案综合利用了序列映射、De Brujin图、和统计分析。用我们开发的方法BAUM拼接了野生水稻Rufipogon,长雄野生水稻(Oryza longistaminata ), 高原鼢鼠的基因组。contig的N50长度是衡量所拼接出的基因组的连续性的一个重要指标,BAUM目前的N50结果好于常用方法3-6倍。此外,课题还开展了与高通量测序相关的生物系统理论和医学组学数据分析研究。包括生物系统的数学可计算建模的理论工作,以及基于高通量组学数据研究二型糖尿病机制的工作。本课题的研究成果申请了多项中国和国际专利,其中两项获得授权。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
粗颗粒土的静止土压力系数非线性分析与计算方法
基于SSVEP 直接脑控机器人方向和速度研究
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
高通量测序技术的可计算建模与碱基辨识的算法和评估
激光惯性约束聚变的可计算建模与算法研究
问题驱动的大型优化问题的可计算建模与算法探索
动态网络生物标记识别的可计算建模与算法