The development of sequencing technology and massive sequence data has provided unprecedented opportunities and challenges to the research of bioinformatics. How to exploit computer technology to solve the current problems of sequence analysis has become a major concern in national strategic needs and large-scale project needs. The project centers on the study of sequence mapping algorithm, reads assembly algorithm, multiple sequence alignment algorithm and SNP sequence associated with disease analysis algorithm based on next generation sequencing technology. Through studying the problems in short reads alignment and assembly, we find out ways to improve the performance of their algorithms using their outputs and properties of short reads. Also, multiple sequence alignment algorithms can pre-process the SNP sequence of healthy and sick people and make a solid foundation for the further analysis of the relationship between SNP and disease. The project will provide effective methods for the analysis of massive sequence data, come up with new ideas for disease diagnosis and treatment and promote the development of medical technology and the research of bioinformatics.
测序技术的发展和随之产生的海量序列数据对现代生命科学研究带来了前所未有的机遇和挑战。如何采用计算机技术解决序列分析的前沿问题成为国家重大战略需求和重大工程需求的关键任务。本项目分别研究新一代测序技术下的片段比对算法、短片段组装算法、多序列比对算法与SNP序列与疾病关联性分析算法。通过收集序列数据和其他相关生物数据,并对其数据本身进行特症挖掘,基于多序列比对的结果,在云计算平台下参考比对短片段,然后组装这些短片段,进行SNP与疾病关联分析,最后再使用实际生物数据以及反馈信息对相关算法进行验证与改进。本项目的研究将为海量序列数据的分析提供高效的计算方法,为疾病诊断与治疗的研究提供新思路。
在本基金的资助下,按照研究计划中的研究内容和技术路线,本项目重点研究了新一代测序技术下的序列组装算法、序列比对算法和SNP序列与疾病关联分析算法,取得的主要研究成果如下:1. 基于新一代测序技术下的双端读数提出了迭代种子扩展的拼接算法ISEA,可以获得更长和更准确的scaffolds;针对宏基因组组装计算量大的问题,提出了宏基因组组装工具框——DIME;为了定位和纠错contigs中的组装错误,我们提出了基于双端读数分布的纠错方法MEC。2. 为解决现有工具部分读数无法比对到参考基因组的问题,提出了一种基于碱基测序质量的修剪策略来确定片段中最长最可信的部分的方法 RAUR 来重新比对那些未比对上的片段。开发了甲基化可视化比对工具VAliBS,能够辅助辅助DNA甲基化研究。3. 提出了用于解决微同源缺失和微插入缺失的结构变异检测算法Sprites。此外,本项目还提出了一种新的寻找高阶SNP组合和复杂疾病关系的方法,基于能量分布的差异,能同时分析所有的SNPs。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
零和序列相关问题
时间序列分析中几种假设检验问题的研究
蛋白质序列分析、结构预测和折叠动力学及其相关问题
循环平稳时间序列分析中几个重要问题的研究