天文大数据中时序图像子集高效检索方法与系统研究

基本信息
批准号:U1531111
项目类别:联合基金项目
资助金额:47.00
负责人:于策
学科分类:
依托单位:天津大学
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:黄妍妍,肖健,赵来平,吴虎统,汤善江,傅浩,王洁,洪智,尹树成
关键词:
时域天文索引数据存储数据管理天文图像数据
结项摘要

Astronomical research is already in big data era as the astronomical science data is so rich and keep increasing dramatically. High efficiency subset retrieving is the prerequisite of the specific research. This project focuses on the time domain astronomy topics based on image data to research on the high efficiency subset retrieving methods and scalable system architecture for astronomical image data. The research work is based on high performance storage and indexing technologies and uses actual observed data and science topics as samples. The main contents and innovations include the following. A high performance metadata and indexing system constructed without any modification on the archived raw image data to locate the files needed, a high efficiency subset reading methods designed for FITS image file to retrieve the specific area of the large image with least effort, a high performance cache designed to store the queried time series image data. The optimization focuses on the data layout and data lifecycle management. The system architecture for different scale of data set will support both single node and distributed storage environment. The expected output of this project can directly support the astronomical research on time series image data and the management of massive astronomical image data, and will be a sample for the management and high performance retrieving of other types of astronomical science data.

大数据时代的天文学研究,天文科学数据量空前丰富且增长迅速,高效获取所需要数据子集成是开展具体研究的前提。本项目以基于图像数据的时域天文学为主要需求,以高性能存储、索引等技术为基础,以实际观测数据和科学问题为范例,研究在大数据环境中高效提取时序天文图像子集的方法和可扩展系统构架。研究工作的主要内容和创新在于:在不对已经归档的图像数据进行任何改变的前提下,构建高性能元数据结构和索引系统,用于定位所需数据所在的文件;研究高效FITS图像文件局部数据读取方法,以最少代价读取局部图像数据;研究设计高性能缓存系统,通过数据布局优化和数据生命周期优化管理提高检索得到的时序图像数据的访问性能和使用效率;研究设计针对不同规模数据集的系统构架,支持单存储节点环境与分布式存储环境。研发成果可以直接服务于需要时序图像集合的天文学研究以及大规模天文图像数据管理,也可以为其他类型天文科学数据管理和高性能检索提供参考。

项目摘要

大数据时代的天文学研究,天文观测数据的增长与积累对数据存储与科学分析提出了性能与效率方面的新挑战。同时,天文学研究者不需要也不能够使用全部观测数据进行研究,因此,需要一个存储系统能够高效地为用户提供所需要的数据子集。本项目以高性能存储、索引等技术为基础,研究了在大数据环境中高效提取时序天文图像子集的方法和可扩展系统。.本项目提出了一套基于天区划分索引的天文图像数据高效检索方法(AQUAdex)。该方法采用了“原地不动”的数据处理模式,经过专门设计的索引结构仅保留了检索中需要的关键信息,从而维持了较小的索引数据体积并使其可以被完全载入内存之中。此方法的查询效率比非基于天区划分的索引查询效率提高了9倍之多。改进版的AQUAdexIM采用纯内存计算的方式,其对天文图像数据的检索效率相比于应用广泛的内存数据库Redis也提升了10倍之余。同时,本项目提出了一种基于缓存磁盘管理的FITS文件子图的高效生成服务,设计并实现了对用户请求模式敏感的PA缓存替换策略。采用的坐标映射方法、子图合并策略以及缓存替换的优先级算法用较少的缓存空间消耗换取了更多的缓存命中机会。相比于LRU,LFU和LRFU策略,在缓存磁盘容量与被查询文件大小总量比约为23%时仍能保持72%的缓存命中率,拥有最低的平均响应时间。提出了一个对请求队列作预处理的PA-G缓存替换策略。PA-G比原PA策略在重载下能将平均响应时间降低81.8%。针对大规模的观测数据,本项目提出了分布式环境中子集检索系统(GAIDR)。该系统设计了多层级主从存储架构并建立相关天文原始图像数据索引与副本数据索引来实现高效检索,提出了一种适用于时域天文学天文数据访问的副本策略,通过副本数据布局、合并以及替换,GAIDR的平均响应时间相对于性能最好的对比实验降低了14.07%。.此外,本项目围绕这些核心技术问题进行了天体光变时间序列数据生成方法、多波段天文数据融合、天文观测数据存储管理优化等多个方面的天文科学数据处理的研究工作。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020
3

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021
4

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021
5

平行图像:图像生成的一个新型理论框架

平行图像:图像生成的一个新型理论框架

DOI:10.16451/j.cnki.issn1003-6059.201707001
发表时间:2017

于策的其他基金

相似国自然基金

1

面向大视场时域巡天观测的大数据检索与融合方法研究

批准号:U1931132
批准年份:2019
负责人:樊东卫
学科分类:A3304
资助金额:50.00
项目类别:联合基金项目
2

天文数据处理和图像恢复研究

批准号:19373009
批准年份:1993
负责人:王绶官
学科分类:A1901
资助金额:7.50
项目类别:面上项目
3

矿物数据库及检索系统研究*4

批准号:48970091
批准年份:1989
负责人:郭宗山
学科分类:D0203
资助金额:5.50
项目类别:面上项目
4

科学数据中时序特征的提取与可视化方法研究

批准号:61902202
批准年份:2019
负责人:张丽
学科分类:F0209
资助金额:28.00
项目类别:青年科学基金项目