生物序列大数据集模体发现算法的研究

基本信息

批准号：61502366

项目类别：青年科学基金项目

资助金额：21.00

负责人：于强

学科分类：

依托单位：西安电子科技大学

批准年份：2015

结题年份：2018

起止时间：2016-01-01 - 2018-12-31

项目状态：已结题

项目参与者：郭鸿志,郭海涛,孙志刚,王哲

关键词：

大数据集模体发现精确算法生物序列模式驱动

结项摘要

Motif discovery plays an important role in locating significant sequence segments in biological sequences. The exact algorithms for motif discovery can report the optimal motif under a specified measure. In recent years, the large biological sequence datasets bring new challenges to the exact algorithms in the aspect of time performance. Aimed at designing efficient exact algorithms for motif discovery as the basic goal, we identify motifs based on pattern-driven, and guarantee good time performance by reducing candidate motifs and accelerating motif verification. At first, we establish the method for selecting reference sequences from large datasets, such that the selected reference sequences correspond to the minimum number of candidate motifs in all possible reference sequences. Secondly, we establish the method for generating candidate motifs from three substrings, which needs little storage space and further reduces candidate motifs. Finally, we design the efficient algorithm for motif verification, achieving the time performance of O(nl/log(n)) for verifying a candidate motif of length l in a sequence of length n. The exact algorithms designed by this project will identify motifs efficiently in large biological sequence datasets that contain hundreds or more sequences.

模体发现对生物序列中定位有意义的序列片断起着非常重要的作用。模体发现的精确算法能在指定测度下找出输入序列中最优的模体，但近年来生物序列大数据集为精确算法在时间性能方面提出了新的挑战。本项目采用基于模式驱动的技术路线进行模体发现，以设计时间高效的模体发现的精确算法为基本目标，并分别从减少候选模体和加速候选模体验证两个角度确保算法具有高效的时间性能。首先，建立在大的序列数据集中选择参考序列的方法，使选出的参考序列在所有可能的参考序列中对应最小数量的候选模体；其次，建立占用存储空间小的由三个子串生成候选模体的方法，使得进一步减小候选模体的数量；最后，设计时间高效的模体验证算法，使在长度为n的序列上验证长度为l的候选模体的时间性能达到O(nl/log(n))。本项目所设计的精确算法将能够在含有数百条甚至更多序列的生物序列大数据集中快速地进行模体发现。

项目摘要

(1) 项目的背景.模体发现对生物序列中定位有意义的序列片断起着非常重要的作用，但近年来生物序列大数据集为模体发现带来了巨大的计算挑战。设计适用于生物序列大数据集的时间高效的模体发现算法是当前模体发现领域的一个重要任务，有助于在基因组水平探索基因的表达调控机制。.(2) 主要研究内容.针对生物序列大数据集下的模体发现问题，本项目围绕精确的模体发现算法，主要展开了如下研究：选择恰当的参考序列对已有精确算法进行加速；设计已有精确算法适配大数据集的版本；设计高效的基于模式驱动的大数据集精确算法；设计大数据集模体发现的样本序列选择算法；研究已识别模体的时空交互关系。.(3) 重要结果.建立了模式驱动的模体识别算法的参考序列选择问题，提出了一个称为RefSelect的算法来快速地选取生成少的候选模体的参考序列，可以使现有精确算法的时间性能提升多达100倍。通过提取和合并序列中的相似子串，提出了精确算法PairMotif的适配大数据集的版本PairMotifChIP。充分分析了模式驱动的模体发现算法的计算复杂度，并设计了适用于DNA序列大数据集的模式驱动的精确算法PTMotif，时间性能显著地优胜于当前最好的精确算法。建立了模体发现的样本序列选择问题，并设计了样本序列选择算法，使得现有精确算法运行于选出的样本序列时使用很短的时间便能成功地找出模体。.(4) 关键数据及科学意义.我们在本领域重要期刊BMC Bioinformatics等和重要会议IEEE International Conference on Bioinformatics and Biomedicine (CCF B类会议)等发表了8篇论文，其中6篇为期刊论文，2篇为会议论文，SCI检索5篇，EI检索3篇。开发了可在GitHub或Google上访问的软件。这些研究成果为进一步研究具有复杂结构的模体的识别以及超大规模序列数据集上模体的搜索与识别奠定了较好的基础。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.16368/j.issn.1674-8999.2018.12.569

发表时间：2018

DOI：10.16796/j.cnki.1000-3770.2022.03.003

发表时间：2022

DOI：10.12354/j.issn.1000-8179.2021.20201763

发表时间：2021

DOI：

发表时间：2021

DOI：10.7524 /j.issn.0254-6108.2017122903

发表时间：2018

于强的其他基金

批准号：41171086

批准年份：2011

资助金额：65.00

项目类别：面上项目

批准号：41371119

批准年份：2013

资助金额：75.00

项目类别：面上项目

批准号：61806139

批准年份：2018

资助金额：27.00

项目类别：青年科学基金项目

批准号：41602128

批准年份：2016

资助金额：18.00

项目类别：青年科学基金项目

批准号：40071008

批准年份：2000

资助金额：20.00

项目类别：面上项目

相似国自然基金

序列大数据复杂情景模式发现算法研究

批准号：61602438

批准年份：2016

负责人：敖翔

学科分类：F0607

资助金额：20.00

项目类别：青年科学基金项目

蛋白质共价修饰相关序列模体的计算发现

批准号：30900835

批准年份：2009

负责人：任间

学科分类：C0608

资助金额：20.00

项目类别：青年科学基金项目

大规模序列数据集的压缩索引与搜索算法研究

批准号：61373044

批准年份：2013

负责人：霍红卫

学科分类：F0201

资助金额：75.00

项目类别：面上项目

ChIP-Seq数据的从头模体发现与RNA-Seq短序的从头组装算法研究

批准号：61572358

批准年份：2015

负责人：张少强

学科分类：F0213

资助金额：63.00

项目类别：面上项目

生物序列大数据集模体发现算法的研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

肥胖型少弱精子症的发病机制及中医调体防治

EBPR工艺运行效果的主要影响因素及研究现状

外泌体在胃癌转移中作用机制的研究进展

基于铁路客流分配的旅客列车开行方案调整方法

珠江口生物中多氯萘、六氯丁二烯和五氯苯酚的含量水平和分布特征

于强的其他基金

华北平原农业生产对气候变化的响应机制及其模拟研究

作物生产系统中水分传输阻力的实验解析与水分利用效率的模拟研究

脉冲编码机制通用神经元学习算法研究

热年代学约束下鄂尔多斯盆地西南缘构造复合带的古地温及抬升冷却历史恢复

地下水对地表过程的作用及其对农业生态的影响

相似国自然基金