面向大规模基因表达谱的数据挖掘及并行分析方法研究

基本信息
批准号:61702134
项目类别:青年科学基金项目
资助金额:25.00
负责人:廖清
学科分类:
依托单位:哈尔滨工业大学
批准年份:2017
结题年份:2020
起止时间:2018-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:李晔,陈倩,文伟光,李焜炽,王豪杰
关键词:
基因表达谱分类基因表达数据聚类
结项摘要

The development of gene sequencing technology has been produced large amount of gene data and has made it easy to monitor the expression patterns of thousands of gene simultaneously under particular experimental environments and conditions. However, large scale and complexity have brought new challenges to the analytical methods of gene expression data. ..Machine learning could help to learn and mine hidden patterns from large-scale gene expression data. However, the characteristics of gene expression information, including high dimension, low sampling, and large scale, lead to unsatisfactory analytical results of traditional machine learning methods. Based on the state-of-the-art research, the applicant designs and proposes a novel gene expression clustering method via dimensional reduction technique and a multi-task deep learning cancer classification method to solve the shortcomings of high dimension and low sampling. For the challenge of large scale, the applicant plans to research on parallel processing methods and correlation analysis methods for gene expression data based on the massively parallel heterogeneous computing platform, then evaluate performance of methods to help disease diagnosis and the discoveries of novel biomarkers.

随着新一代测序技术的飞速发展,测序通量不断增加,测序成本不断降低,使得研究人员能够在一次测序中获得成千上万个基因表达水平,从而帮助研究者全局的观测基因之间的复杂关联和模式表达,为后续的疾病诊断提供技术支撑。机器学习提供了从基因表达谱数据中学习和挖掘潜在有用信息的方法和手段。然而表达谱信息存在特征维度高、观测样本少、数据规模大等特点,传统的机器学习方法无法高效地获得满意的分析结果。基于已有研究基础,本项目提出数据优化降维并行聚类和多源相似基因表达谱深度共享学习方法,解决维度高和样本少的问题。而针对海量基因表达谱大数据分析的时效性问题,本项目拟依托大规模并行异构计算平台,提出新的表达谱数据并行处理算法及关联性分析方法,并基于真实数据验证方法的准确性和时效性,以期对疾病诊疗起到重大促进作用。

项目摘要

随着新一代测序技术的飞速发展,测序通量不断增加,测序成本不断降低,使得研究人员能够在一次测序中获得成千上万个基因表达水平,从而帮助研究者全局的观测基因之间的复杂关联和模式表达,为后续的疾病诊断提供技术支撑。机器学习提供了从基因表达谱数据中学习和挖掘潜在有用信息的方法和手段。然而表达谱信息存在特征维度高、观测样本少、数据规模大等特点,传统的机器学习方法无法高效地获得满意的分析结果。基于已有研究基础,本项目提出了:1)多源相似基因表达谱数据深度共享学习技术,2)维度与样本不均衡的基因表达谱数据降维并行聚类技术,3)支持大规模并行计算的基因表达谱数据处理技。并基于真实数据验证方法的准确性和时效性,从而提升疾病诊疗的准确性。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DOI:10.3969/j.issn.1673-1689.2021.10.004
发表时间:2021
3

双吸离心泵压力脉动特性数值模拟及试验研究

双吸离心泵压力脉动特性数值模拟及试验研究

DOI:10.13465/j.cnki.jvs.2020.19.016
发表时间:2020
4

空气电晕放电发展过程的特征发射光谱分析与放电识别

空气电晕放电发展过程的特征发射光谱分析与放电识别

DOI:10.3964/j.issn.1000-0593(2022)09-2956-07
发表时间:2022
5

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021

廖清的其他基金

批准号:91333111
批准年份:2013
资助金额:91.00
项目类别:重大研究计划
批准号:20803085
批准年份:2008
资助金额:19.00
项目类别:青年科学基金项目
批准号:21273251
批准年份:2012
资助金额:80.00
项目类别:面上项目
批准号:21873065
批准年份:2018
资助金额:66.00
项目类别:面上项目
批准号:11464051
批准年份:2014
资助金额:34.00
项目类别:地区科学基金项目
批准号:21073200
批准年份:2010
资助金额:37.00
项目类别:面上项目
批准号:21673144
批准年份:2016
资助金额:65.00
项目类别:面上项目

相似国自然基金

1

大规模基因表达序列分析数据分布式并行消息传播聚类方法研究

批准号:61100118
批准年份:2011
负责人:唐东明
学科分类:F0605
资助金额:21.00
项目类别:青年科学基金项目
2

面向大规模流数据的完备性挖掘方法研究

批准号:60403021
批准年份:2004
负责人:靳晓明
学科分类:F0202
资助金额:23.00
项目类别:青年科学基金项目
3

大规模高分辨质谱数据挖掘新方法研究

批准号:21305163
批准年份:2013
负责人:张志敏
学科分类:B0310
资助金额:25.00
项目类别:青年科学基金项目
4

面向大规模时空数据的简化表达与交互可视分析方法研究

批准号:61872314
批准年份:2018
负责人:周志光
学科分类:F0209
资助金额:56.00
项目类别:面上项目