高效访问及快速处理BESIII海量数据的软件技术研究

基本信息
批准号:11205180
项目类别:青年科学基金项目
资助金额:30.00
负责人:邓子艳
学科分类:
依托单位:中国科学院高能物理研究所
批准年份:2012
结题年份:2015
起止时间:2013-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:刘怀民,孙永昭,马秋梅,刘北江,刘春秀,林韬
关键词:
索引导航海量数据处理分布式系统北京谱仪III
结项摘要

BEPCII has been constructed and passed the acceptance. The upgraded detector BESIII accumulates massive raw data rapidly. The reconstruction of raw data and the following generation of Monte Carlo simulation data with BESIII Offline Software System (BOSS) are the basis of BESIII physics analysis. With the increase of data volume, the time consuming of some high priority data processing jobs causes overlong suspending of the succeeding jobs and inefficiently usage of CPU resources. The increased data processing cycle hinders the promptly carrying out of physics analysis work. In addition, the current data accessing module wastes disk space seriously and restricts the speed of data processing and physics analysis jobs while disk space becomes tight with data volume growth. This project aims to develop a new event-level distributed system which improves data processing speed and reduces data processing cycle, and an event index navigation system which saving disk space and speeding up data processing and physics analysis. The implementation of this project helps to achieve important physics results on BESIII experiment faster and better.

北京正负电子对撞机重大改造工程(BEPCII)已建成并通过验收,升级后的北京谱仪III (BESIII)获取的原始数据正快速累积。通过BESIII离线软件系统(BOSS)将原始数据进行重建并产生相应的模拟数据,是开展BESIII物理分析的基础。随着数据量的增大,某些高优先级的数据处理任务耗时过长,使后续任务长时间等待,导致数据处理周期越来越长,CPU资源不能得到充分利用,物理分析工作不能及时展开。此外,数据量的快速增大使磁盘空间日益紧张,采用现有的数据访问方式,不仅造成磁盘空间的严重浪费,也限制了数据处理和物理分析的速度。本项目旨在开发一种新的事例级分布式软件系统,大幅提高离线数据处理的速度,缩短数据处理周期;同时,研究通过事例索引实现高效的事例导航,大幅节约磁盘空间,提高数据处理和物理分析的速度。本项目的顺利实施将帮助BESIII实验更快更好的取得物理成果。

项目摘要

BESIII实验自2009年开始取数以来,积累了PB量级的原始数据,这对数据处理来说是个很大的挑战。本项目着重于提高数据处理和数据访问的效率,实现了分布式离线软件系统、基于TAG的数据分析软件和多输入流数据分析软件。.分布式离线软件系统能够对紧急任务进行快速处理,缩短等待时间,保证离线软件大规模数据处理和物理分析工作得以及时开展。采用主/从节点的工作模式,主节点负责磁盘I/O,从节点负责事例数据的处理,基于DIM开发的网络服务模块负责信息交换和数据传输。该系统用于离线数据重建和MDC刻度中,测试结果显示,利用该系统可大大节省作业运行时间,最多可减为正常运行方式的1/5。.基于TAG的数据分析软件能大大节省物理分析作业的时间。以往通常采用对DST文件进行分类存储,物理分析用户可根据需要选择相应的DST数据集进行物理分析。但是这样会造成DST文件的多份拷贝,是对磁盘空间的极大浪费。基于TAG的数据分析系统,通过TAG文件对每个事例进行描述,从而在分析过程中通过这些描述信息进行预筛选,感兴趣的事例才去读取DST事例。TAG文件为ROOT格式,每个DST文件对应于一个TAG文件。在TAG文件中包括6个整形量的情况下,TAG文件大小约为DST文件的1/700。测试结果显示,在同样的挑选条件下(例如nCharge=2),基于TAG的数据分析作业运行速度与直接读skimmed dst的分析作业一样,并且结果完全一致。.多输入流的数据分析软件用于在物理分析过程中同时读取DST event和raw event。以往数据重建的过程中,为了让用户可以同时获取DST event和 raw event,需要将重建后的数据保存为REC格式,但是由于REC文件过大,大批量数据重建过程中一般不保存REC文件,只存DST文件。少部分用户在数据分析过程中,需要读raw event时,则需要重新重建原始数据,生成一份REC文件。使用多输入流的数据分析软件,可以避免数据的重新重建,节省了大量的磁盘空间和CPU时间。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
3

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
4

卫生系统韧性研究概况及其展望

卫生系统韧性研究概况及其展望

DOI:10.16506/j.1009-6639.2018.11.016
发表时间:2018
5

面向云工作流安全的任务调度方法

面向云工作流安全的任务调度方法

DOI:10.7544/issn1000-1239.2018.20170425
发表时间:2018

邓子艳的其他基金

批准号:11575224
批准年份:2015
资助金额:58.00
项目类别:面上项目

相似国自然基金

1

BESIII实验数据分析和处理方法及软件研究

批准号:U1232201
批准年份:2012
负责人:李卫东
学科分类:A3201
资助金额:240.00
项目类别:联合基金项目
2

能源互联网海量数据高效感知处理与认知管理关键技术研究

批准号:61772286
批准年份:2017
负责人:孙雁飞
学科分类:F0207
资助金额:64.00
项目类别:面上项目
3

基于海量网络数据的未知高级间谍软件行为检测技术研究

批准号:U1736218
批准年份:2017
负责人:严寒冰
学科分类:F02
资助金额:253.00
项目类别:联合基金项目
4

面向FAST的海量数据处理关键技术研究

批准号:U1531246
批准年份:2015
负责人:朱明
学科分类:A1503
资助金额:200.00
项目类别:联合基金项目