With the rapid advancement of bioinformatics, a large volume of data has been accumulated very fast in the biomedical field. Big data has been incorporated into all aspects related to biomedical science, including academic research, clinical diagnostics, pharmaceutical development, health management, etc. However, the storage, management, analysis and processing of such large amounts of data to tell the inner meaning and scientific principle on the insight of the big-data, face serious challenges on key technology and implementation platform. In this project, we propose to build a general-purpose application supporting platform to tackle with biomedical big data, breakthrough biomedical health data processing and high performance computing convergence architecture, hybrid hierarchy storage architecture and data management, large scale biomedical heterogeneous parallel computing method, association analysis and aggregate mining methods on multi-source heterogeneous data, security and privacy protection of platform data. Based on Tianhe-2, the six-time world champion supercomputer on Top500 list, we expect to propose some key technologies and solutions for the aggregation, storage, analysis of biomedical big data, to meet different requirements of various biomedical big data applications. Through the design and optimization of biomedical platform, give full play to Tianhe-2’s powerful analysis of computing and storage capacity, aiming to improve the research and application in biomedical health field.
随着生物信息学的不断发展,大数据已经贯穿基础研究、临床诊断、医药开发、健康管理等生物医学健康领域的各个环节。但如何有效地存储、管理、分析、处理这些多源异质动态增长的海量数据,挖掘出大数据背后的生物研究、医学诊疗、健康管理等方面的内在涵义和科学规律,在关键技术和实现平台上面临严峻的挑战。本项目围绕获得Top500“六连冠”的天河二号超级计算机,突破生物医学健康大数据处理异构融合架构、高并发层次式存储与混合数据管理、大规模生物医学异构并行计算处理方法、多源异质海量数据的关联分析与聚合挖掘方法、平台数据安全与隐私保护等关键技术,构建生物医学健康大数据应用支撑平台,实现多种生物医学领域典型应用全工作流程级的数据存储汇聚与分析处理。通过对天河2号进行面向生物医学领域的高性能计算与大数据处理融合平台的设计与优化,充分发挥其强大的计算处理与存储分析能力,以提升我国在生物医学健康领域的研究与应用水平。
随着生物信息学的不断发展,大数据已经贯穿基础研究、临床诊断、医药开发、健康管理等生物医学健康领域的各个环节。但如何有效地存储、管理、分析、处理这些多源异质动态增长的海量数据,挖掘出大数据背后的生物研究、医学诊疗、健康管理等方面的内在涵义和科学规律,在关键技术和实现平台上面临严峻的挑战。.本项目面向生物医学健康大数据构建集数据获取、数据存储、数据处理、数据应用、数据服务于一体的集成平台。研究内容包括:基于天河二号的生物医学大数据处理异构融合架构、多源异质海量数据的层次式存储与管理、生物医学大数据处理的异构并行计算方法、生物医学大数据的汇聚分析与安全隐私保护技术、关于若干典型疾病的应用示范等五个方面。.经过四年的研究,项目组突破了大数据处理与高性能计算的融合架构,研发了面向融合架构的工作流运行支撑系统,设计了面向生物医学大数据的层次式存储结构和多模态数据管理中间件,研发了面向生物医学大数据的常用算法库。针对多个领域的生物医学大数据提出了多项高效的数据分析技术,针对特定应用设计了数据分析挖掘流程,面向生物医学大数据的安全隐私保护制定了标准规范。在多个领域收集了大量的数据,并研发了基因组学数据分析、蛋白组学数据分析、医学影像处理、多模态数据汇聚挖掘、虚拟药物筛选、肿瘤数据关联分析等多个应用示范平台,提供给超算中心的用户实际使用。.在研究过程中共发表论文102篇,其中,IEEE/ACM Trans.、CCF A类、中科院一区等国际重要学术会议及SCI 期刊上发表高水平论文29篇,其中,一篇论文入选中国科协第五届优秀论文,一篇被Nature子刊《Nature Machine Intelligence》录用。申请专利48项、授权12项,登记软件著作权9项。培养博士生12名,硕士生21名。.项目各项指标均超出预期。在2020年疫情期间,所研发的医学影像分析平台、虚拟药物筛选平台为一线抗疫提供重要技术支持,所研发的多源数据融合处理平台支撑了国家卫健委、钟南山院士团队的疫情大数据分析工作,在抗疫过程中做出重要贡献。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于SSVEP 直接脑控机器人方向和速度研究
基于多模态信息特征融合的犯罪预测算法研究
面向云工作流安全的任务调度方法
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
异构计算平台下高效大图数据处理的运行时支撑环境研究
基于超级计算机的大数据处理支撑平台研究
基于天河二号的各向异性三维海洋可控源电磁高阶有限元数值模拟研究
基于Web的居民电子健康档案数据共享平台研究