病毒基因空间几何算法研究和对新病毒威胁快速探测及预警

基本信息
批准号:31271408
项目类别:面上项目
资助金额:60.00
负责人:丘成栋
学科分类:
依托单位:清华大学
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:杨杰,于成龙,袁北彗
关键词:
基因组空间统计分类病毒自然向量
结项摘要

In this proposal, we construct the natural vectors for DNA/genome sequences. The parameters used here are based on the numbers and distributions of nucleotides in the sequence, which is a natural way to describe these sequences. To each DNA sequence we associate a natural sequence of parameters, called a natural vector, describing the numbers and distributions of nucleotides in the sequence. We show that the correspondence between a natural vector and a DNA sequence is one-to-one. A natural distance between two DNA sequences is the distance between their corresponding natural vectors. This creates a genome space with biological distance, which allows us to do phylogenetic analysis in the most natural and easiest manner. . The classification model based on permanent process is proposed to do clustering and classification of the natural vectors. Unlike many research works in the literature of classification problems, this classification model assumes only exchangeability instead of independence on observations. It has a mathematical framework allowing the existence of previously unobserved classes. Regardless of the number of classes or the dimension of the feature variables, the proposed model may require only 2-3 parameters for fitting the covariance structure within clusters. Due to the flexibility of the underlying permanent process, the model works well even if the class occupies non-convex, disjoint regions, or regions overlapped with other classes in the feature space. It is ideal for the classification and clustering problems in the natural vector genome space. . The first goal of this project is to construct and maintain a database of "natural vector bank" to store all natural vectors of virus genome sequences. Then we need to do clustering on those natural vectors. The HRV example in this proposal shows the clustering results based on natural vectors are biologically meaningful. Considering the exponentially increasing size of known genome database, the natural vector method is the only feasible approach so far to cluster the genome space. In a pilot study of 27,643 genome sequences, it takes only a couple of hours using natural vector method to compute all the pairwise distances, while it will take four years using the classical multiple alignment methods.. The ultimate goal of this project is to detect threats from new viruses. Having obtained the natural vector corresponding to the new virus, we can locate the new virus in the genome space. The closer distance from a virus to a known cluster represents the more similarities between them. The similarities indicate that the new virus and other viruses in the closest cluster have the similar functions or behavior patterns.

本项目计划构建基于自然向量的病毒基因组数据库, 并用它快速检测来自新病毒的威胁。.1.确定病毒的自然向量表示和基因组空间。考虑病毒基因组序列中的核甘酸的数量以及分布情况,将每个序列表示成一个数值向量(自然向量)。可以证明,序列和自然向量之间是一一对应。两个病毒之间的生物距离可以用它们所对应的自然向量的几何距离来刻画。自然向量所构成的空间可以看成是一个多维欧式空间的子空间,即基因组空间。.2.建立病毒基因组数据库。存储所有已知病毒基因组序列的自然向量。与现有的数据库不同,本数据库将支持对所有已知的病毒进行同时的比较分析。现有方法中,只有自然向量法可以完成这个任务。.3.新病毒威胁预警。在获得新病毒序列信息基础上,快速计算出其相应的自然向量并与我们数据库中的自然向量作对比。距离相近的自然向量所对应的病毒可能具有类似性质特点。通过分析与新病毒相近的已知病毒的毒性和传播方式,对新病毒作出预警报告。

项目摘要

病毒是一种个体微小、结构简单的非细胞型生物,在自然界分布极为广泛,能够对人类活动产生巨大的影响。对病毒进行分类是开始理解和研究病毒十分关键的一步。分析病毒的进化关系,从分子水平上重构病毒系统发育树,成为病毒分类的一种十分有效的方式。然而基于病毒个体微小,在生物学中通过实验难以实现对其正确、细致的分类。. 本项目的研究内容是构建基于自然向量的病毒基因组数据库, 并用它快速检测来自新病毒的威胁。在获得新病毒序列信息基础上,快速计算出其相应的自然向量并与我们数据库中的自然向量作对比。距离相近的自然向量所对应的病毒可能具有类似的功能和传播方式。通过分析与新病毒相近的已知病毒的性质,对新病毒作出预警报告。. 整个项目中,我们在高影响因子杂志上共发表了18篇学术论文。通过对病毒数据库中所有单片段病毒基因组的分析,我们发现采用12维自然向量能够很好地表示病毒基因组,可以获得准确的分类结果。我们建立了病毒基因组的12维自然向量数据库,存储所有已知病毒基因组序列的自然向量。该数据库能够对所有病毒进行任何分类等级上的比较。现有方法中,只有自然向量法可以完成这个艰巨任务。对于多片段病毒,我们将它的每一个片断都转化为12维自然向量,然后采用Hausdorff距离来衡量自然向量的集合之间的距离,实现对多片段病毒的比较和分类。这种方法可以统一对单片段和多片段病毒做序列比较和进化分析,克服了上述进化树不一致的主要困难。我们提出了一种新的数学上严格证明的Yau-Hausdorff距离。该距离可以衡量二维曲线的相似程度,并在曲线旋转和平移情况下,保持不变。利用基因和蛋白质的二维图形表示,该距离可以有效地运用于不同物种的进化分析。此外,我们还首次提出,利用凸包方法分析所有蛋白质序列。我们发现由蛋白质的序列的自然向量组成的60维凸包中,非蛋白质的任意氨基酸序列不包含在这个凸包中。这项成果在病毒蛋白质序列分析上的意义重大,可以有效地用于发现病毒蛋白质。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
3

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
4

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020
5

基于分形维数和支持向量机的串联电弧故障诊断方法

基于分形维数和支持向量机的串联电弧故障诊断方法

DOI:
发表时间:2016

丘成栋的其他基金

批准号:11531007
批准年份:2015
资助金额:230.00
项目类别:重点项目
批准号:91746119
批准年份:2017
资助金额:60.00
项目类别:重大研究计划
批准号:11471184
批准年份:2014
资助金额:80.00
项目类别:面上项目

相似国自然基金

1

植物病毒变异的快速检测与新病毒基因组研究

批准号:30671361
批准年份:2006
负责人:陈集双
学科分类:C1401
资助金额:8.00
项目类别:面上项目
2

空间反交会威胁预警与博弈路径规划

批准号:11572345
批准年份:2015
负责人:罗亚中
学科分类:A0705
资助金额:62.00
项目类别:面上项目
3

基于几何分析的迭代学习控制快速算法及仿真

批准号:60174006
批准年份:2001
负责人:谢振东
学科分类:F0301
资助金额:18.00
项目类别:面上项目
4

民航空防安全威胁预警理论与技术研究

批准号:61079022
批准年份:2010
负责人:贺元骅
学科分类:F01
资助金额:23.00
项目类别:联合基金项目