Biological sequence analysis techniques, which is based on bio-medical big data technology, are driving the technological revolution in the field of life science, and playing an important role in personalized medicine, rapid screening of single-gene diseases, large-scale study of the evolution of species, populations, public health emergency response and molecular breeding. In order to meet the needs of bioinformatics research, the computing resources of the large-scale heterogeneous computing system must be made full use of to increase computing speed of the bioinformatics software. However, because of the complexity of heterogeneous architectures and heterogeneous programming model, there are some issues like low computational efficiency, low resource utilization and difficulty of algorithms transplant in the research of this field. Our project with the exascale large-scale high-performance computer systems based on heterogeneous architecture, on account of the categories algorithm accelerator hardware architecture and programming model of GPU/MIC, studies the sequence analysis algorithm and optimize some key technologies, including feature analysis and performance modeling of typical biological Sequence Analysis algorithms, study of algorithm designing and optimizing technology on CPU-GPU and CPU-MIC heterogeneous architecture, and realization of biological sequence analysis software based on the exascale heterogeneous architecture, aimed to meet the need of timeliness of bio-medical big data.
目前,以测序技术为基础的生物医药大数据分析技术正在推动着生命科学领域的技术革命,在个性化医疗、单基因病快速筛查、大规模物种群体进化研究、公共卫生应急响应以及分子育种等方面发挥了重要作用。为了满足生物信息学的研究需求,必须充分高效利用大规模异构体系结构计算系统的计算资源以提高生物序列分析算法的计算速度,然而由于异构体系结构及异构编程模型的复杂性,目前该领域的研究存在计算效率低、资源利用率低以及算法移植难度大等问题。本项目面向基于大规模异构体系结构的高性能计算机系统,针对GPU/MIC等算法加速器的硬件架构和编程模型,研究序列分析等生物医药大数据分析算法及优化关键技术,包括生物序列分析典型算法的特征分析及性能建模、面向CPU-GPU及CPU-MIC等异构体系结构的算法设计及优化技术研究、以及面向大规模异构系统的生物序列分析软件实现技术,从而满足生物医药大数据分析日益增长的高时效性需求。
超级计算机大多采用大规模异构并行体系结构,异构编程模型复杂,新算法并行和移植困难。该问题在生物医药大数据领域尤显突出,新的生物实验手段、测序技术、算法层出不穷。目前生物医药领域存在计算效率低、以及算法并行难度大、可扩展性差、移植难度大等问题。本课题面向基于异构体系结构的大规模高性能计算机系统,针对通用处理器和协处理器的混合硬件架构和编程模型,研究了生物医药大数据分析算法及并行优化关键技术,研究成果获得了2019年度国家科学技术进步二等奖(排名第10),湖南省技术发明一等奖(排名第1),2018年度CCF自然科学二等奖(排名第1),2021年度CCF技术发明二等奖(排名第1)。申请人还获得2020年度“长江学者”特岗教授奖励计划。主要研究工作包括:.1)研究了大规模异构体系结构的生物医药大数据并行算法及优化关键技术的相关算法及优化方法。包括:研究了基于大规模异构体系高性能计算分子对接的并行化;研究了基于序列分析的CRISPR/Cas9 sgRNA等基因编辑设计工具与算法。同时还构建了精准医学大数据平台等;.2)研究了生物序列分析典型算法的特征分析及性能建模,提出了面向异构大规模计算机系统的海量生物序列数据并行分析算法与负载均衡策略、可扩展性技术等提出了基于多层次信息融合的蛋白质结构预测技术;以及一种用于基因表达谱相似性度量的深度度量学习算法等;建立了多表型功能性遗传筛选数据库。.3)研究了面向通用多核处理器的并行算法与优化技术,提出了面向异构体系结构的协同算法与并行优化技术,提出了系列并行算法及异构优化技术。研发了SNP检测的大规模并行算法mSNP;设计了一种新的协同进化域检测算法和并行优化框架COPCOP;基于天河超级计算机搭建了大规模分子动力学仿真的高可扩展协同并行框架等。.4)研究了面向大规模异构高性能计算机系统的海量生物序列数据并行分析算法的可扩展性技术,提出了一个两级框架来充分利用基于Xeon Phi的多核体系结构的计算能力;和基于CPU/MIC混合计算框架的MEME并行实现。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
面向激光聚变模拟的大规模异构众核系统可扩展并行算法与优化方法
面向科学计算的异构多流体系结构关键技术研究
基于GPU异构体系结构的大规模组Skyline查询关键技术研究
异构多核体系结构的能效优化关键技术研究