The big data analysis processes are complex computation procedures in some industries such as banks and public security. Both data locality and security levels are required. Balanced resource utilization and memory sharing obtained by scheduling jobs and tasks are crucial for performance of big data analysis. Unfortunately, existing big data computing models are not suitable for these characteristics. Considering these factors, we will propose an integrated computing framework for big data with security levels based on Spark. Resource predicting models and methods will be developed for different job modes of applications executing in parallel. Job workflow scheduling models will be constructed for optimizing the throughput and balanced virtual machine utilization involving in data security levels, data locality and deadlines. Job workflow scheduling methods and optimal cluster configuration strategies will be presented according to jobs’ modes. Containers will be adopted as task scheduling resource units. The task scheduling mathematical model will be investigated considering resilient distributed data scaring and jobs’ finish times. Heuristics will be proposed for tasks’ fair scheduling. All system and algorithm parameters along with operators will be calibrated using the Analysis of Variation technique. The effectiveness and efficiency of the developed framework and methods will be evaluated by practical public security big data.
公安、银行等领域大数据分析计算过程复杂,要求同时考虑数据本地化和数据安全等级。作业和任务调度中资源均衡利用率和内存共享度是影响大数据分析性能的关键,经典大数据计算模型不能完全满足这些特性。综合考虑上述因素,选择符合数据安全等级需求的云计算平台,基于SPARK计算模型构建跨应用大数据计算集成框架。面向并行执行多个应用的不同计算作业模式,提出所需不同类资源预估模型和方法;考虑数据安全等级、数据本地化、截止期等约束,建立以吞吐率、资源平衡利用等为优化目标的多工作流调度模型;依据作业的虚拟机配置需求,提出作业工作流的调度优化方法和集群资源的优化分配策略。基于跨作业弹性数据共享和作业完成时间,以容器为基本计算资源单元,建立资源均衡利用的独立任务调度数学模型;提出任务公平调度启发式方法。采用方差分析方法测定相关参数和算子;基于具有数据安全等级的实际公安大数据验证所提出计算框架和优化方法的效率和性能。
数据安全性是大数据计算需考虑的重要因素。公安、银行、通信等行业产生典型的大数据,其显著特点是数据具有安全等级。带数据安全等级(如公安、银行等领域)的大数据分析是复杂的计算任务,针对目前MapReduce、Spark 等计算模型处理该类问题存在的不足,结合Mesos、YARN等计算平台,考虑数据本地化、系统吞吐率、资源平衡利用等因素,本项目主要对如下内容进行研究:针对基于数据安全等级的大数据计算集成框架,提出“算法+数据+知识+算力”的新型计算调度框架,提出新型大数据计算集成框架性能评估模型,提出异构集群下Spark调度框架优化方法。针对并行并发应用工作流调度问题,提出海量并发工作流应用特征挖掘方法,提出基于实例成功熵的多工作流调度方法,提出动态环境下,不确定并发应用的鲁棒容错调度方法。针对基于共享弹性数据的任务调度问题,提出大数据环境下海量服务资源高维数据特征挖掘方法,提出随机突发请求的服务资源多目标优化方法,提出基于能量感知的地理分布式大服务资源调度方法。针对系统时间和算法参数的校正、算法验证问题,基于Montage、SIPHT和CyberShake等科学工作流数据集,采用ANOVA方差分析,校正了算法中所涉及的参数。并在阿里巴巴Cluster data等实际数据集验证了算法的性能。 最后基于实际公安大数据验证所提出计算框架和优化方法的效率和性能。
{{i.achievement_title}}
数据更新时间:2023-05-31
面向云工作流安全的任务调度方法
服务经济时代新动能将由技术和服务共同驱动
瞬态波位移场计算方法在相控阵声场模拟中的实验验证
职场排斥视角下服务破坏动因及机制研究——基于酒店一线服务员工的实证研究
基于LBS的移动定向优惠券策略
带等级约束的半在线调度问题模型与算法研究
云计算环境下多尺度计费服务的批任务工作流调度
云计算环境下大数据驱动的工作流调度关键技术研究
大数据驱动的深度时空敏感云工作流智能调度与资源优化方法