生物序列大数据集模体发现算法的研究

基本信息
批准号:61502366
项目类别:青年科学基金项目
资助金额:21.00
负责人:于强
学科分类:
依托单位:西安电子科技大学
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:郭鸿志,郭海涛,孙志刚,王哲
关键词:
大数据集模体发现精确算法生物序列模式驱动
结项摘要

Motif discovery plays an important role in locating significant sequence segments in biological sequences. The exact algorithms for motif discovery can report the optimal motif under a specified measure. In recent years, the large biological sequence datasets bring new challenges to the exact algorithms in the aspect of time performance. Aimed at designing efficient exact algorithms for motif discovery as the basic goal, we identify motifs based on pattern-driven, and guarantee good time performance by reducing candidate motifs and accelerating motif verification. At first, we establish the method for selecting reference sequences from large datasets, such that the selected reference sequences correspond to the minimum number of candidate motifs in all possible reference sequences. Secondly, we establish the method for generating candidate motifs from three substrings, which needs little storage space and further reduces candidate motifs. Finally, we design the efficient algorithm for motif verification, achieving the time performance of O(nl/log(n)) for verifying a candidate motif of length l in a sequence of length n. The exact algorithms designed by this project will identify motifs efficiently in large biological sequence datasets that contain hundreds or more sequences.

模体发现对生物序列中定位有意义的序列片断起着非常重要的作用。模体发现的精确算法能在指定测度下找出输入序列中最优的模体,但近年来生物序列大数据集为精确算法在时间性能方面提出了新的挑战。本项目采用基于模式驱动的技术路线进行模体发现,以设计时间高效的模体发现的精确算法为基本目标,并分别从减少候选模体和加速候选模体验证两个角度确保算法具有高效的时间性能。首先,建立在大的序列数据集中选择参考序列的方法,使选出的参考序列在所有可能的参考序列中对应最小数量的候选模体;其次,建立占用存储空间小的由三个子串生成候选模体的方法,使得进一步减小候选模体的数量;最后,设计时间高效的模体验证算法,使在长度为n的序列上验证长度为l的候选模体的时间性能达到O(nl/log(n))。本项目所设计的精确算法将能够在含有数百条甚至更多序列的生物序列大数据集中快速地进行模体发现。

项目摘要

(1) 项目的背景.模体发现对生物序列中定位有意义的序列片断起着非常重要的作用,但近年来生物序列大数据集为模体发现带来了巨大的计算挑战。设计适用于生物序列大数据集的时间高效的模体发现算法是当前模体发现领域的一个重要任务,有助于在基因组水平探索基因的表达调控机制。.(2) 主要研究内容.针对生物序列大数据集下的模体发现问题,本项目围绕精确的模体发现算法,主要展开了如下研究:选择恰当的参考序列对已有精确算法进行加速;设计已有精确算法适配大数据集的版本;设计高效的基于模式驱动的大数据集精确算法;设计大数据集模体发现的样本序列选择算法;研究已识别模体的时空交互关系。.(3) 重要结果.建立了模式驱动的模体识别算法的参考序列选择问题,提出了一个称为RefSelect的算法来快速地选取生成少的候选模体的参考序列,可以使现有精确算法的时间性能提升多达100倍。通过提取和合并序列中的相似子串,提出了精确算法PairMotif的适配大数据集的版本PairMotifChIP。充分分析了模式驱动的模体发现算法的计算复杂度,并设计了适用于DNA序列大数据集的模式驱动的精确算法PTMotif,时间性能显著地优胜于当前最好的精确算法。建立了模体发现的样本序列选择问题,并设计了样本序列选择算法,使得现有精确算法运行于选出的样本序列时使用很短的时间便能成功地找出模体。.(4) 关键数据及科学意义.我们在本领域重要期刊BMC Bioinformatics等和重要会议IEEE International Conference on Bioinformatics and Biomedicine (CCF B类会议)等发表了8篇论文,其中6篇为期刊论文,2篇为会议论文,SCI检索5篇,EI检索3篇。开发了可在GitHub或Google上访问的软件。这些研究成果为进一步研究具有复杂结构的模体的识别以及超大规模序列数据集上模体的搜索与识别奠定了较好的基础。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
3

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

DOI:10.16085/j.issn.1000-6613.2022-0221
发表时间:2022
4

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

DOI:10.7606/j.issn.1000-7601.2022.03.25
发表时间:2022
5

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018

相似国自然基金

1

序列大数据复杂情景模式发现算法研究

批准号:61602438
批准年份:2016
负责人:敖翔
学科分类:F0607
资助金额:20.00
项目类别:青年科学基金项目
2

蛋白质共价修饰相关序列模体的计算发现

批准号:30900835
批准年份:2009
负责人:任间
学科分类:C0608
资助金额:20.00
项目类别:青年科学基金项目
3

大规模序列数据集的压缩索引与搜索算法研究

批准号:61373044
批准年份:2013
负责人:霍红卫
学科分类:F0201
资助金额:75.00
项目类别:面上项目
4

ChIP-Seq数据的从头模体发现与RNA-Seq短序的从头组装算法研究

批准号:61572358
批准年份:2015
负责人:张少强
学科分类:F0213
资助金额:63.00
项目类别:面上项目