The development of gene sequencing technology has been produced large amount of gene data and has made it easy to monitor the expression patterns of thousands of gene simultaneously under particular experimental environments and conditions. However, large scale and complexity have brought new challenges to the analytical methods of gene expression data. ..Machine learning could help to learn and mine hidden patterns from large-scale gene expression data. However, the characteristics of gene expression information, including high dimension, low sampling, and large scale, lead to unsatisfactory analytical results of traditional machine learning methods. Based on the state-of-the-art research, the applicant designs and proposes a novel gene expression clustering method via dimensional reduction technique and a multi-task deep learning cancer classification method to solve the shortcomings of high dimension and low sampling. For the challenge of large scale, the applicant plans to research on parallel processing methods and correlation analysis methods for gene expression data based on the massively parallel heterogeneous computing platform, then evaluate performance of methods to help disease diagnosis and the discoveries of novel biomarkers.
随着新一代测序技术的飞速发展,测序通量不断增加,测序成本不断降低,使得研究人员能够在一次测序中获得成千上万个基因表达水平,从而帮助研究者全局的观测基因之间的复杂关联和模式表达,为后续的疾病诊断提供技术支撑。机器学习提供了从基因表达谱数据中学习和挖掘潜在有用信息的方法和手段。然而表达谱信息存在特征维度高、观测样本少、数据规模大等特点,传统的机器学习方法无法高效地获得满意的分析结果。基于已有研究基础,本项目提出数据优化降维并行聚类和多源相似基因表达谱深度共享学习方法,解决维度高和样本少的问题。而针对海量基因表达谱大数据分析的时效性问题,本项目拟依托大规模并行异构计算平台,提出新的表达谱数据并行处理算法及关联性分析方法,并基于真实数据验证方法的准确性和时效性,以期对疾病诊疗起到重大促进作用。
随着新一代测序技术的飞速发展,测序通量不断增加,测序成本不断降低,使得研究人员能够在一次测序中获得成千上万个基因表达水平,从而帮助研究者全局的观测基因之间的复杂关联和模式表达,为后续的疾病诊断提供技术支撑。机器学习提供了从基因表达谱数据中学习和挖掘潜在有用信息的方法和手段。然而表达谱信息存在特征维度高、观测样本少、数据规模大等特点,传统的机器学习方法无法高效地获得满意的分析结果。基于已有研究基础,本项目提出了:1)多源相似基因表达谱数据深度共享学习技术,2)维度与样本不均衡的基因表达谱数据降维并行聚类技术,3)支持大规模并行计算的基因表达谱数据处理技。并基于真实数据验证方法的准确性和时效性,从而提升疾病诊疗的准确性。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
双吸离心泵压力脉动特性数值模拟及试验研究
空气电晕放电发展过程的特征发射光谱分析与放电识别
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
大规模基因表达序列分析数据分布式并行消息传播聚类方法研究
面向大规模流数据的完备性挖掘方法研究
大规模高分辨质谱数据挖掘新方法研究
面向大规模时空数据的简化表达与交互可视分析方法研究