面向进化基因组学的高通量测序数据流形建模

基本信息
批准号:11471313
项目类别:面上项目
资助金额:70.00
负责人:蔡云鹏
学科分类:
依托单位:中国科学院深圳先进技术研究院
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:王莹莹,苗芬,郑卓远,樊小毛,杨玉洁,马瑞青
关键词:
计算生物学流形学习高通量测序流形聚类进化基因组学
结项摘要

Evolutionary genomics is a hot topic in computational biology, which focuses on discovering the adaptation mechanism of life organisms to environmental changes at molecular biology level. In this project we propose a novel idea of adopting manifold modeling to precisely exhibit the details in gene evolution, and correctly explore the topology structures of gene sequencing data in the sequence space as well as their clustering formations, and accurately recover the gene evolutionary path concealed in next-generation sequencing data. Based on our previous works, we propose an efficient method of constructing the k-nearest neighbor list for data in non-Euclidean space rapidly with the aid of pseudo-metric space partitioning tree, and a detail-preserving sampling method based on topological similarity, which circumvents the computational difficulties of applying manifold learning to large-scale data. Moreover, we introduce the concept of constrained clustering and sub-space clustering into manifold modeling, which makes use of a small number of labelled data to determine a manifold subspace that reflects specially-defined classification significance. In this way the dimensions in the manifold space introduced by meanful variations are accurately discriminated with those introduced by random noises. Moreover, by constrained clustering the the natural borders of the data set in the manifold subspace are explored, as well as the structure details of gene evolutionary path. The implementation of the project will lead to a powerful tool for genomics analysis and provide insights to development of new methods for manifold modeling.

进化基因组学分析是计算生物学的热点领域之一,是在分子生物学层面揭示生物对环境适应机制的主要方法。本项目拟提出将流形建模引入进化基因组学分析以准确描绘生物基因进化过程细节的新思路,正确提取并展示基因序列数据在空间的拓扑结构和群聚关系,准确复原高通量测序数据所反映的基因进化路径。本项目在申请人前期工作的基础上,拟提出运用伪度量空间分割树的非欧氏空间快速k近邻列表构造方法,和基于拓扑相似性的细节保真抽样方法,解决流形建模技术应用到大规模数据分析的计算负荷问题。更进一步,将约束聚类和子空间聚类的思想引入流形建模,利用少量标定样本确定具有特定分类意义的流形子空间,准确区分流形空间的有效维度和干扰维度,寻找数据集在流形空间上的自然分类边界,准确复原基因进化路径的结构细节,为基因组学研究提供有力的分析工具,同时为发展流形建模的新方法提供思路。

项目摘要

进化基因组学分析是计算生物学的热点领域之一,是在分子生物学层面揭示生物对环境适应机制的主要方法。本项目提出将流形学习和深度神经网络引入进化基因组学分析以准确描绘生物基因进化过程细节的新思路,正确提取并展示基因序列数据在空间的拓扑结构和群聚关系,准确复原高通量测序数据所反映的基因进化路径,实现准确的物种序列分类。本项目在申请人前期工作的基础上,提出了运用伪度量空间分割树并行快速级联聚类方法,和基于动态地标选择技术的分治式并行级联聚类方法,解决流形建模技术应用到大规模数据分析的计算负荷问题。更进一步,引入深度神经网络和流形聚类的思想,利用少量标定样本确定具有特定分类意义的流形特征子空间,寻找数据集在流形空间上的自然分类边界,准确复原基因进化路径的结构细节,提升了物种基因序列分类的准确度,为基因组学研究提供了有力的分析工具。相关成果已发表研究论文7篇,其中SCI论文5篇,EI论文2篇;其中JCR一区的SCI国际著名期刊4篇(含中科院分区一区的PLOS Computational Biology, Bioinformatics顶级期刊论文各1篇);申请发明专利5项,授权发明专利2项。超额完成项目目标。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
2

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
3

一种改进的多目标正余弦优化算法

一种改进的多目标正余弦优化算法

DOI:
发表时间:2019
4

三级硅基填料的构筑及其对牙科复合树脂性能的影响

三级硅基填料的构筑及其对牙科复合树脂性能的影响

DOI:10.11951/j.issn.1005-0299.20200093
发表时间:2020
5

面向工件表面缺陷的无监督域适应方法

面向工件表面缺陷的无监督域适应方法

DOI:
发表时间:2021

蔡云鹏的其他基金

相似国自然基金

1

高通量RNA-Seq测序数据的基因表达水平建模研究

批准号:61170152
批准年份:2011
负责人:刘学军
学科分类:F0213
资助金额:56.00
项目类别:面上项目
2

基于高通量测序数据的isomiR功能研究

批准号:61105003
批准年份:2011
负责人:裴云飞
学科分类:F0304
资助金额:23.00
项目类别:青年科学基金项目
3

高通量测序的可计算建模与应用基础算法

批准号:91530105
批准年份:2015
负责人:李雷
学科分类:A0504
资助金额:25.00
项目类别:重大研究计划
4

面向大数据高通量仿真的异构计算数据通信建模与优化

批准号:61602037
批准年份:2016
负责人:翟岩龙
学科分类:F0202
资助金额:20.00
项目类别:青年科学基金项目