Analysis for multi-sequence is an important problem with the widely applied prospect in biology sequence analysis. Relative feature analysis method, starting from the original data directly is able to obtain much more information and an effective method for solving the sequence comparison problem. However, though alignment model of multi-sequence, which is widely used as an analysis model for relative feature of multi-sequence, has some weakness that is hard to overcome, there is a lack of other replacement for the multi-sequence comparison. The weakness mainly lies that its similarity hypothesis tends so much to the local mutations that its order information is neglected. Therefore, our project focuses on the analysis method of the alignment-free relative feature of the multi-sequence: raising the rational similarity hypothesis with mathematics as well as biology importance; setting up the similarity object fits for the large and multi-sequence and multi-sequence comparison model with lower time and space complexity by using Burrows-Wheeler transform and common words; broadening the fields applying similarity analysis, category and cluster and the evolution of the species of the biology sequence.
多序列分析是生物序列分析的一个重要且具有广泛应用前景的课题。相对特征分析方法直接从原始数据出发,可以获得较多的信息,是解决序列比较问题的有效方法。然而,多序列比对模型,做为广泛使用的一种多序列相对特征分析模型,虽然存在着很难克服的缺点,但同时也缺少相应的其它可替代的多序列比较模型。多序列比对模型的不足主要是由于其相似性假设过于倾向序列的局部变化且无法考虑与序列的"序"相关的问题。因此,本项目主要研究多序列的非比对相对特征分析方法:提出具有数学意义、生物学意义的合理相似性假设,利用Burrows-Wheeler变换及序列间的公共子串来构建适合大序列、多序列的相似性对象并建立具有较低时间及空间复杂度的多序列比较模型,扩展应用于生物序列的相似性分析、分类与聚类分析以及物种进化等领域。
本项目的主要研究内容为生物多序列相对特征分析方法。旨在提出更具有数学意义、生物学意义的合理相似性假设,构建适合大序列、多序列的相似性对象,建立复杂度低的多序列比较模型,扩展应用与生物序列的相似性分析、聚类分析以及物种进化等领域。主要采用的研究方案为利用Burrow-Wheeler变换和序列间公共子串的性质来研究。我们通过利用Burrow-Wheeler变换,可以很好的提取特征扩展序列的相似性特征。该方法在Chew-Kedem 数据集上取得了很好的结果。我们深入研究了序列间公共子串的性质,发现与公共子串伴随而生的序列间特异性子串具有很好的性质,提出了平滑局部分析曲线和相似性分布两种方法来分析序列的整体和局部相似性。我们构建了一种多分辨率非比对相对特征的序列分析框架,构建了序列间的特异性信号并将其作为相似性对象,并证明了序列间在某位点的插入、删除和替换可以对应特异性信号在此位点附近发生若干次冲激响应。进而,利用多分辨率分析方法对特异性信号进行分析,刻画了序列间在多尺度下的差异。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于多模态信息特征融合的犯罪预测算法研究
F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度
水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
空气电晕放电发展过程的特征发射光谱分析与放电识别
DNA序列特征分析
时空约束的机载多视序列影像特征稳健提取方法
多模态生物特征识别方法研究
生物序列分析中非比对方法的数学模型研究