Traffic data analysis platform is an important infrastructure for the smart city. How to build, develop and maintain this platform needs a huge amount of cost. As the data produced in traffic transportation systems explosive growth,the traditional IT solutions can not satisfy the realistic requirements. Thus, the operators in traffic field try to adopt the new emerging big data system solutions born in Internet area.. However, it is difficult to select an appropriate solution and build a platform because of the diverse computation requirements and big data system solutions. Currently, the operators selecting solutions depend on their own experiences or simple evaluation results. They make a decision without a reasonable foundation, leading to the waste of investment, unsmooth development and boring maintenance.. This work is trying to address this issue from benchmarking, performance evaluation and workload characterization for big data systems. We expect to design a benchmark suite and a workload characterization tool. The benchmark suite is able to comprehensively comparison different solutions in terms of performance, cost/performance, development efficiency, scalability, and maintenance cost. The workload characterization tool is used to analyze the program behavior of big data application and find the potential performance bottlenecks. These tools can help the operator to build an appropriate big data solution for traffic data analysis platform, obviously saving the cost of investment, development and maintenance
智慧城市是未来城市治理的有效途径。交通数据处理和分析平台是智慧城市的重要基础设施,投资、开发、维护等成本大。随着交通数据规模的不断增加,传统的解决方案已经无法满足实际的应用需求,交通领域开始尝试使用诞生于互联网领域的大数据系统解决方案。 . 但是,交通应用计算需求的复杂性和大数据系统解决方案的多样性使平台的构建面临重重困难。当前,实施者在进行大数据系统选型时通常依赖于过往的经验或简单测试的结果。这种缺乏科学依据的决策往往会导致投资成本浪费,开发不顺利,运行维护困难等严重的后果。 . 针对交通大数据系统解决方案构建过程中遇到的问题,本课题尝试从大数据系统基准测试,性能评估和负载分析的角度开展研究,并构建一套针对交通大数据系统的基准测试工具和一套负载分析工具。研究成果能够准确综合评测不同解决方案的性能,能耗,可扩展性等多个指标,指导构建高效能的交通大数据系统解决方案。
随着城市规模的不断扩张,城市交通大数据平台建设、开发和维护成本也不断增加。交通场景下计算需求的复杂性和大数据系统解决方案的多样性使平台的构建面临重重困难。一方面,要考虑批处理,流式计算,图计算和交互式分析等多种技术场景。另一方面,考虑大数据解决方案的多样性,例如存储系统,计算引擎,数据分析工具的组合。当前,实施者在进行系统选型时通常依赖于个人经验或简单测试的结果。这种缺乏科学依据的决策往往会浪费大量投资。 . 研究内容主要有:1、基于程序行为相似性分析的基准测试集构建方法。尝试以量化方法构建基准测试集,能准确刻画交通场景下程序和数据特征。2、基于多阶段管道模型的大数据系统的测试方法。主要研究以多阶段的负载交互准确刻画真实的生产环境。综合评估不同解决方案的各项指标。3、基于性能模型的跨系统栈层次感知的负载分析方法。主要研究跨层次的程序特征采集,因素-性能模型构建和性能剖析工具。 . 重要结果主要有四点:1、不同的程序行为意味着对资源需求的差异,以互联网领域的基准测试集不能准确的刻画交通领域的程序特征和数据特征。2、同一个技术场景,不同存储系统和计算引擎的组合,可能存在10倍以上的性价比差异。3、基于流水线管道模型的测试方法,能够准确刻画真实的应用场景,测试不同解决方案的真实性能指标。4、基于机器学习的参数调优方法,可以节省大量的人工实施成本。在同等硬件条件下,可以将程序性能提高50%以上。同时满足多目标优化需求,例如,可以同时优化成本和性能。. 以上研究结果可以为交通大数据平台的建设提供决策依据。包括解决方案选型、系统开发、性能调优、后期部署和运维。有效节约交通大数据平台投资、开发、运维成本。
{{i.achievement_title}}
数据更新时间:2023-05-31
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
特斯拉涡轮机运行性能研究综述
栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究
氯盐环境下钢筋混凝土梁的黏结试验研究
气载放射性碘采样测量方法研究进展
并行、多平台“云测试”的关键技术研究
面向高性能云平台的并行程序优化关键技术研究
卫星导航数据处理时空基准精化关键技术研究
不稳定测量平台静态基准转换技术研究