As HEP data volume increasing, the traditional way of data processing, 'data to computing task', is facing more and more challenges, a new computing model, 'computing task to data', has been developed by Appache, including HDFS/Hbase components and Mapreduce programming model, and is attracting more and more attention from enterpises and scientific communities, and gains great successes in many real use cases. But in High Eneregy Physics, the Hadoop just is used as Storage Elements in CMS experiment in U.S, a very limited success.Therefore the project plans to do the following research, including build a new platform of data analysis to change into 'computing job to data ' using HDFS and MapReduce, adopt Hbase as index NO-SQL database of event-level TAG, explore the new physical analysis platform,'computing task to data'. Investigate data structure and permanent starage,re-organize the event strucure to resolve key issue of HDFS to HEP data analysis, enable HEP software to run on HDFS/Hbase platform smoothly using SOA technology,integrate HDFS/Hbase and existing Torque job management system using Mesos open source software. The ultimate goal of the project will build a fully new computing platform to speed up HEP data analysis, and provide references to other similar sciences.
高能物理数据累积越来越多,传统的"数据到计算任务"计算模式受到了很大的挑战,Appache等组织的Hadoop项目,开发了HDFS/Hbase及Mapreduce并行数据处理框架,实现了"计算任务到数据"的全新计算模式,受到业界及科学界的广泛关注和使用,取得了巨大的成功。本申请利用开源软件HDFS、Mapreduce,以及物理事例级的索引数据库Hbase,实现高能物理数据分析的"数据到计算任务"转变,形成新型的高能物理数据处理平台;研究高能物理DST的事例存储方式,重新组织事例的存储结构,克服当前HDFS系统随机访问的问题;利用SOA的技术封装现有的高能物理软件,使其与HDFS/Hbase及MapReduce能无缝对接;研究实现现有的集群计算系统同Hadoop系统的资源管理、集成及共享。项目目标是在Hadoop开源软件基础上建立新型的高能物理分析平台,可以极大提高物理分析效率。
高能物理数据累积越来越多,传统的“数据到计算任务”计算模式受到了很大的挑战,Appache等组织的Hadoop项目,开发了HDFS/Hbase及Mapreduce并行数据处理框架,实现了“计算任务到数据”的全新计算模式,受到业界及科学界的广泛关注和使用,取得了巨大的成功。本项目利用开源软件HDFS、Mapreduce,实现高能物理数据分析的“数据到计算任务”转变,改进原先仅支持数据流访问的机制为支持POSIX语义的访问,形成新型的通用高能物理数据处理平台;同时,利用物理事例级的索引数据库Hbase,建立了高能物理DST的事例新型的存储结构以支持快速索引,也可以通过Tag数据快速过滤大量不感兴趣的事例;利用SOA的技术在现有的高能物理软件Guadi框架增加Hbase的访问模块,使其与HDFS/Hbase及MapReduce能无缝对接;研究实现现有的集群计算系统同Hadoop系统的资源管理、集成及共享。该项目已经为大型项目LHHASO建立了120CPU核芯和180TB存储的新型Hadoop计算系统,以及在BESIII实验上建立了HBase新型的高能物理分析平台,结果显示新型的Hadoop/Hbase平台可以极大提高物理分析效率。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
混采地震数据高效高精度分离处理方法研究进展
基于云计算平台Hadoop的海量数据聚类研究
基于Hadoop的气象云存储与数据处理平台的研究
基于多维数据关联分析的高能物理计算平台智能运维技术研究
虚拟化平台上的高能物理离线数据处理技术研究