Data processing for modern astronomical telescopes is both data-intensive and computing-intensive, and with construction and operation of the new generation of radio telescopes, inevitably the traditional data pipelines will need to be upgraded or redesigned in order to tackle with the rapidly increasing data throughput rate. The research aims at the requirement of the data processing for FAST HI multi-beam survey and removing the performance bottleneck of the existing pipelines, and designs a management framework for data-driven parallel tasks, and explores automated RFI (radio frequency interference) mitigation algorithms using deep learning approach, and accelerates the gridding operation though heterogeneous computing and dynamic task scheduling techniques, finally builds a high-performance and high-availability HI survey and spectral line data processing system. The achievement of the project can be directly applied for FAST normal observation in the coming two or three years, and provides practical experiences for the data process of other large single-dish radio telescopes and its performance optimization.
望远镜数据处理兼有数据密集和计算密集的特点,随着诸多新一代大型射电望远镜的建设和投入使用,现有数据处理软件都面临着巨大的升级改造压力以应对飞速增长的数据吞吐率。本课题将深度结合FAST中性氢多波束巡天数据处理的实际需求,针对现有pipeline的性能瓶颈,以提升望远镜的运维效率和科学产出为目标,设计数据驱动的并行多任务管理框架,研究基于深度学习的RFI自动识别技术,研究综合利用异构计算和任务调度机制加速Gridding过程的方法,构建一套高性能、高可用性的中性氢巡天和谱线数据pipeline原型系统。项目成果可直接应用于FAST的正式观测,同时为我国其他大型单口径射电望远镜的数据处理及其性能优化提供经验和参考。
本项目针对FAST河外中性氢巡天数据预处理(pipeline)的性能问题开展研究,围绕海量观测数据的并行处理、射频干扰(RFI)自动识别、数据立方体(data cube)生成(gridding)等关键技术开展,主要成果包括:基于HDF5的并行pipeline原型系统、基于深度学习的RFI自动识别软件、基于GPU和CPU混合异构环境的gridding软件等。具体如下:..(1).设计了pipeline的处理流程,开发了并行pipeline的驱动框架,设计了基于HDF5的中间数据格式,实现了FITS文件与HDF5的快速转换工具;利用分块存储、内存缓存、并行I/O等优化策略,提高pipeline的整体效率。.(2).数据校准:根据FAST实际观测数据,探索、提出并验证了流量校准、带通和基线修正的步骤与方法,分别完成了基于IDL和Python的原型代码。.(3).提出了RFI自动识别的网络模型,并设计开发了RFI-Net软件。测试结果表明,与U-Net、KNN、SumThreshold等现有方法相比,RFI-Net的综合性能最优,准确率能够达到97%以上,F1得分达到93%以上。同时,RFI-NET可在较少的训练数据下获得相当的精度,减少了训练集的准备工作量。8条工作流并行运行的处理速率可达到每小时66.79GB,能够支持FAST河外谱线观测数据的准实时处理。.(4).设计开发了高性能Gridding工具—HCGrid,解决了大量观测数据网格化的性能瓶颈。HCGrid充分利用CPU多线程与GPU高并发的特点,基于HEALPix优化数据在显存中的布局结构,提高查找效率,能够自动适配主要显卡型号(K40/T4/V100等)。与单纯基于CPU多线程的Cygrid软件相比,两者的准确度相当,而HCGrid可以获得50倍至上百倍的加速比。..项目研发过程中,发表相关论文15篇,其中MNRAS 2篇,CCF B类期刊1篇;汇总形成了一份FAST河外中性氢数据处理的详细技术文档;取得软件著作权两项。项目已有研发成果解决了FAST河外中性氢谱线数据预处理中的大部分关键技术问题,并基于实际观测数据进行了检验,相关研究还在持续深化和推广试用中,其中RFI识别以及Gridding功能已经封装为即插即用的独立软件包,可方便集成到FAST现场数据处理中,亦可为其他射电数据处理提供参考。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
面向云工作流安全的任务调度方法
基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
面向FAST的海量数据处理关键技术研究
巨型射电天文望远镜(FAST)总体设计与关键技术研究
面向FAST的宽带高灵敏度相控阵馈源系统设计关键技术研究
高性能并行计算关键技术研究