Modern solar observations produce high-volume data with a very high speed such as a few hundred MB per second and several TB per day. However, the traditional centralized data storage technology has been unable to meet this demand in scalability, availability and performance. In this proposal, NoSQL distributed storage mechanisms are designed for handling the New Vacuum Solar Telescope in Chengjiang, Yunnan, China. Its goal is to provide a fast, secure and reliable way to store, manage, retrieve, read and maintain massive amounts of solar observation data. The requirements of the data dynamic growing in volume and real-time processing will be met. There are four fields that will be researched, the architecture of NoSQL distributed storage, the techniques of distributed data integrity, the technology of high-performance parallel data reading/writing, and how to add / remove storage nodes conveniently. Key technologies include data storage and retrieval using the combination of Key-Value and B + tree, the optimization methods of distributed data storage, and the algorithm of real-time task allocation and task scheduling with NoSQL. The innovative points of the proposal are to use the distributed storage and NoSQL mechanisms in storing and reading massive solar observation data, and the use of Key-Value and B + tree in writing and retrieving. The results of this research will not only be used in NVST , but it will also have applications in other telescopes.
传统的集中式数据存储方式已经无法满足现代太阳观测每秒数百兆字节的高速海量数据存储要求。本项目以澄江红外太阳塔(NVST)为依托,研究基于NoSQL的分布式数据存储技术,实现海量太阳观测数据的高速安全可靠的存储、管理、检索、读取和维护,并满足数据动态快速的增长以及对存储数据的实时处理要求。项目重点开展基于NoSQL的天文数据分布存储架构、分布存储中的数据完整性保证技术、高性能并行读写技术和存储节点便捷加入与移除技术这四个方面的工作。力争突破基于Key-Value与B+树结合的数据存储与检索技术、分片存储的最优化方法和NoSQL中的实时任务分配与任务调度算法等关键技术。本项目创新之处在于引入新的存储体系结构,使用分布式存储和NoSQL技术实现海量太阳观测数据的高速可靠的存储、读取、管理和扩容,以及为保证数据的一致性和安全性而利用Key-Value机制B+树实现观测结果的一次性写入和结果查询。
本项目针对大型太阳观测设备产生的海量数据对存储模式的需求,结合澄江一米红外望远镜等大型太阳观测设备,重点研究了基于NoSQL 的天文海量数据分布式存储的关键技术。按照研究任务书,本项目研究了可以满足当前大型太阳望远镜海量数据高速存储的可行办法。针对如下四个方面进行了研究:基于NoSQL 的天文数据分布存储架构;分布存储中的数据完整性保证技术;高性能并行读写技术;存储节点加入与移除技术。基于这些研究,初步实现一个面向海量天文数据的分布式存储系统原型AstroFS,以及基于NoSQL的分布式存储检索系统,并结合NVST观测数据,进行了测试。完成既定研究目标如下:1) 对可以满足天文海量数据存储的分布式存储系统进行研究,利用NoSQL的方式实现面向FITS格式文件的高速分布存储;2) 提出了可行的天文观测数据分布存储的方法与算法,对数据存储中各类控制参数,如分布数据大小、存储节点数量等结合太阳观测数据的特点给出较优的定量指标;3) 研究Key-Value技术在天文数据存储的可用性,实现了对KEY值的高速检索,同时能够保证数据与检索信息的一致写入,确保观测数据的完整性。4)结合NVST观测数据进行的测试表明,AstroFS系统能够满足当前NVST太阳望远镜的存储需求。与此同时,本项目还研究了基于AstroFS系统存储数据的并行GPU计算和太阳图像相关科学数据处理和科学应用,如对国家天文台怀柔基地磁场数据的处理和太阳光球亮点以及黑子本影亮点等精细结构的研究。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
论大数据环境对情报学发展的影响
钢筋混凝土带翼缘剪力墙破坏机理研究
气载放射性碘采样测量方法研究进展
基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制
面向NVST海量高速观测数据的分布式存储系统研究与实现
基于海量观测数据的太阳爆发事件预报建模研究
基于NoSQL集群数据库的下一代托卡马克实验数据存储技术研究
海量RDF图数据的分布式存储与查询算法研究