Gene expression is the level of gene transcripts of mRNA, which is related to the gene activities. The Gene expression is measured by different experiments and stored by public database freely shared. It is a hot topic to reuse the big data in public database. Usually, the scholars analyze the results of different experiments and form the gene network or Protein-Protein Interaction using the statistical methods. . However, using the technology in big data, this project aims at integrating the related big gene data in public database and constructing the 3-D gene data matrix which include the gene, time and experimental conditions. We will mine the local co-expression profiles and time-lagged co-expression in 3-D Matrix so that we can recognize short impulses expression pattern and long sustained expression pattern. . Our project will find more interesting gene relations and networks from the integration data which include the time and conditional information, whereas these relations couldn’t be found in the single expression data before. So the result of the project has important application for both scholars and engineers.
基因表达是基因转录产物mRNA 在细胞中的相对水平,它表示基因的基因活跃程度。不同实验室测量的高通量表达数据通常存储在公共数据库中,并免费共享。如何对众多高通量数据进行复用并发现其中的生物规律是生物信息学的研究方向之一。目前的研究主要采用统计学原理,分析不同实验室的研究结论,进而组成基因调控网络或者蛋白质调控网络。. 本项目拟采用大数据的集成技术,将来自不同实验室相关联的高通量基因表达数据进行原始集成,形成包含基因、时间和实验条件信息的三维基因表达矩阵。采用数据挖掘的分析方法,发现三维基因表达矩阵中的局部共表达模式和时滞共表达模式,以识别符合短脉冲表达模式和持续表达模式的基因。. 本项目预期产生的方法能使数据捕捉视野上升到更高的量级,通过识别包含时空特性的基因表达关系模式从而能发现一些在以往片面数据、单一数据中无法体现的新调控关系,所以项目的预期成果具有重要的应用。
随着高通量检测技术的出现,生物数据呈现爆炸式增长,这些数据往往以多源异构模式存在。本项目以基因表达数据为核心,融合其他生物数据,分析多源以后数据的整合模式及三维动态识别模式。项目采用大数据的集成技术,将来自不同实验室相关联的高通量基因表达等数据进行集成,形成三维矩阵。采用数据挖掘的分析方法,发现三维矩阵中的表达模式。.项目围绕数据源的选择与获取问题、数据整合与分析问题、模式识别及分析方法三个科学问题以及基因表达数据与mRNA、非编码RNA及药物作用关系等多个的应用进行展开研究,项目完成了多源异构数据的整合与分析方法、不同环境下的表达数据聚类分析方法及其应用等问题的探究。.项目在Jaccard,Cosine和Gauss等相关性分析的基础上,采用了随机游走技术建立线性形式的预测模型,提出了提出GF-impute和FA-impute两种模拟方法对缺失值进行模拟,采用抽样算法和阈值算法,对基因表达数据的时序三维序列进行数据分析。设计了放射状网格数据转换算法和关系型卷积神经网络算法模型,对单细胞基因表达数据分类问题进行研究。同时,将基因表达数据的分析方法与mRNA、非编码RNA、蛋白质相互作用、药物靶点的发现等进行交叉应用,取得较好的研究结果。.项目提出了一种可以保留整体细胞间关系的细胞类型检测算法,通过最小化内核矩阵的重构误差来得以保留这种原始数据的整体结构信息,利用内核嵌入相似性度量来计算单元间相似度,并将该方法应用于多个领域,获得较好的效果。.项目从基因表达数据着手,通过数据整合技术,将二维数据进行升维,采用关联分析、多维聚类、深度学习、多标签学习等多种策略,对表达数据进行多尺度分析。该项目的研究对药物靶点识别、药物相关性分析等都具有很重要的参考价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
山核桃赤霉素氧化酶基因CcGA3ox 的克隆和功能分析
多源基因表达数据横向整合的统计方法比较
基于多源基因表达数据横向整合的流动相关性问题研究
基于语义网的微生物多源异构数据整合关键技术研究
基于粒计算的多源异构动态数据挖掘关键技术研究