基于细粒度的BESIII离线物理软件事例服务以及其调度算法研究

基本信息
批准号:11675201
项目类别:面上项目
资助金额:70.00
负责人:伍文静
学科分类:
依托单位:中国科学院高能物理研究所
批准年份:2016
结题年份:2020
起止时间:2017-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:陈刚,颜田,郑伟,姚秋玲,王新华,阚文枭,杜然,王聪
关键词:
机遇计算资源事例处理CPU利用率调度策略数据流服务
结项摘要

After the completion of the upgrade of both BEPCII and BESIII, the scale of BESIII physics computation also tremendously increases. In order to meeting the increasing computing requirements, BESIII started to explore and exploit the usage of various opportunistic computing resources including cloud computing, desktop grid and HPC. .Opportunistic computing resources are of great computing potentials and economical values, but neither the current BESIII offline software nor its distributed computing system can fully utilize its existing and potential computing resources, hence it results in a huge amount of waste in CPU time and reduces the efficiency of its jobs. .In order to promote the utilization rate of CPU and RAM for BESIII jobs on its computing resources, especially opportunistic computing resources, increase the efficiency of its jobs, and make opportunistic computing resources of generic usage to all BESIII jobs, this project proposes a fine grained Event service applying to both the BESIII offline software and its distributed computing system, together with data streaming services. .This project will address a few key issues, including 1) Research and implement a lightweight checkpoint for the BESIII offline software both in its single core and multi-core frameworks. 2) Research and implement a fine grained Event service based on the DIRAC system, and research on its scheduling mechanism.3) Research and implement event collection based data streaming services, to provide efficient IO services to the Event Service.

BEPCII和BESIII的重大升级改造已完成,为满足日渐增长的计算需求,BESIII积极探索利用各类包括云计算、桌面网格、HPC在内的“机遇计算资源”。.“机遇计算资源”具有巨大的计算潜力和经济价值,但目前的BESIII离线物理软件以及其分布式计算系统DIRAC无法高效地利用这一巨大的资源池,造成CPU资源的巨大浪费和作业运行效率的低下。.为提高BESIII作业对计算资源特别是“机遇计算资源”的CPU和内存资源利用率,降低作业的运行时间,本课题提出了一种基于BESIII离线物理软件及其分布式计算系统的细粒度的事例服务,研究其调度机制以及基于事例集的数据流服务。.本课题将重点解决1)分别在单核和多核框架下研究和实现BESIII离线物理软件的轻断点保存功能;2)研究和实现基于DIRAC系统的细粒度的事例服务以及其调度机制;3)研究和实现基于事例集的数据流服务,为事例服务提供高效IO服务。

项目摘要

本项目面向BESIII实验的数据处理需求,积极探索并利用志愿计算、网格计算、HPC、云计算等“机遇计算资源”,通过BESIIII分布式计算平台上的DIRAC中间件实现作业在异构资源上的运行。本项目采用虚拟机和容器技术分别在单核和多核框架下实现了BESIII作业的轻短点保存功能,开发DIRAC的BOINC插件实现BESIII作业透明向志愿计算平台迁移、调度和运行,修改BOSS软件使其支持事例索引和事例缓存实现细粒度的事例服务,提高作业运行效率。本主要成果包括:1)事例索引与缓存:扫描BESIII实验的ROOT文件,按照用户需求抽取事例的特征,并将这些特征值存放在HBase数据库中建立索引,同时还将访问过的事例保存在HBase中,实现事例级的缓存。事例级细粒度的事例索引与缓存,提高了事例数据访问的精准度和命中率,从而提高访问性能。2)事例访问接口:本项目修改了BOSS软件,新增HBaseCnvSvc服务,实现用户对于索引和缓存事例数据的透明访问。3)远程事例传输:如果数据分析任务在远程站点运行,首先通过事例索引筛选出事例列表,然后通过事例传输模块从主站点的ROOT文件读出相应的事例并传输给远程的BOSS软件,这样可以大大减少数据传输量,从而提高数据分析效率。4)虚拟化与代理网关:志愿者提供的计算节点往往是不可控和不可靠的,而BESIII等网格计算要求执行任务的计算节点有很高的安全性,否则存在网格代理证书滥用等问题。为此,本项目设计和开发了安全代理网关,所有安全相关的操作比如上传数据、修改状态等通过安全代理网关执行。而志愿计算节点上虚拟机或容器仅执行无安全需求的“作业负载”。5)网格回填作业:本项目提出并实现了网格站点回填作业的方式,即在网格计算节点上运行BOINC客户端,一旦CPU利用率低于某个值就开始运行BOINC作业。这种方法不需要安全代理网关,部署简单,同时可以充分利用网格站点上CPU碎片时间。通过在BEIJING-LCG2二级站点和TRIUMF一级站点上长期测试,发现采用回填作业的方式,可以将CPU的利用率提高20%以上,具有很好的推广前景。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

黄河流域水资源利用时空演变特征及驱动要素

黄河流域水资源利用时空演变特征及驱动要素

DOI:10.18402/resci.2020.12.01
发表时间:2020
2

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
3

面向云工作流安全的任务调度方法

面向云工作流安全的任务调度方法

DOI:10.7544/issn1000-1239.2018.20170425
发表时间:2018
4

服务经济时代新动能将由技术和服务共同驱动

服务经济时代新动能将由技术和服务共同驱动

DOI:10.19474/j.cnki.10-1156/f.001172
发表时间:2017
5

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021

伍文静的其他基金

批准号:11405195
批准年份:2014
资助金额:28.00
项目类别:青年科学基金项目

相似国自然基金

1

多核平台上的BESIII离线物理软件与调度策略研究

批准号:11205179
批准年份:2012
负责人:程耀东
学科分类:A2806
资助金额:30.00
项目类别:青年科学基金项目
2

桌面网格平台上的BESIII离线物理软件和调度策略研究

批准号:11405195
批准年份:2014
负责人:伍文静
学科分类:A2806
资助金额:28.00
项目类别:青年科学基金项目
3

64位系统上BESIII离线物理软件的研究

批准号:11179020
批准年份:2011
负责人:张晓梅
学科分类:A3201
资助金额:50.00
项目类别:联合基金项目
4

BESIII实验离线软件发展与研究

批准号:U1832204
批准年份:2018
负责人:袁野
学科分类:A3201
资助金额:248.00
项目类别:联合基金项目