With the explosive growth of data, the era of big data is coming.Currently, big data computing platform faces the problems of lower performance, lower efficiency and lower reliability of big data storage, which reflect in the lower locality of data access, the higher redundancy of data storage and the poorer efficiency of large data rescue. In this project, we will research on the following four contents. As to the problem of lower storage performance, we will research on the evaluation and analysis methods of big data storage as well as the memory-centered task scheduling method. As to the problem of lower storage efficiency, we will research on the unified data layout methods. As to the problem of lower storage reliability, we will research on the big data quick rescue method based on the data fingerprint technology. Based on the above four research contents, we will complete the big data computing system FlyHadoop, thereby enhancing the performance, efficiency and reliability big data storage. During this research, we will publish more than six papers in the ACM/IEEE Transactions or international proceedings, and we will provide a set of performance, efficient and reliability methods of data storage for big data computing platform to push the development of big data computing platform.
随着数据爆炸式增长,大数据时代已来临。目前,大数据平台在数据存储方面面临存储性能低、存储效率不高和存储可靠性不高的问题,这体现在数据访问局部性较低、数据存储冗余度过高以及大数据救援效率不高三个方面。本项目拟着重研究如下四个方面的内容:针对存储性能低的问题,拟研究大数据存储的评测分析方法、以内存为中心的大数据任务调度优化方法;针对存储效率不高的问题,拟研究大数据计算平台数据的统一布局方法;针对存储可靠性不高的问题,拟研究基于数据指纹的大数据快速救援方法。形成大数据计算平台优化系统FlyHadoop,从而提升大数据计算平台存储性能、效率和可靠性。通过该项目的研究,将在ACM或IEEE重要期刊或国际会议上发表学术论文6篇以上,为大数据计算平台提供高性能、高效、可靠的存储方法,促进大数据计算平台的发展。
随着数据爆炸式增长,一个完善的大数据平台在数据存储方面面临存储性能低、存储效率不高和存储可靠性不高的问题。针对上述问题,本项目研究了大数据存储的评测分析方法、以内存为中心的大数据任务优化、大数据计算平台数据的统一布局和大数据快速救援方法,从而提升大数据计算平台存储性能、效率和可靠性。.本项目在大数据存储评测分析的基础上,提出基于文件访问特性的分布式自适应存储方法FACHS,将改进后的多副本、纠删码等不同存储方法进行自适应选择,从而给出大数据计算平台数据的统一布局。实验结果显示,与现有方法相比,FACHS在读/写性能上分别最多提高13.7%和6.4%;在恢复效率上最多可提升29.1%;在1000节点规模下最多节省9000GB的存储空间。.在以内存为中心的数据缓存技术和以内存为中心的大数据任务优化方面,本项目提出了Panthera,通过轻量级静态程序分析和动态数据使用监控来推断粗粒度的数据使用行为,利用垃圾收集在DRAM和NVM之间迁移数据。实验结果表明Panthera有效地利用了混合内存,将内存能量减少了22%–34%,将Spark的平均执行时间开销减少了 32%–53%。本项目提出了一种新的磁盘辅助方法及工具DiskDroid。该方法通过重新计算和高效的磁盘交换优化内存使用。DiskDroid的性能比FlowDroid提高了 8.6%。.本项目提出了一系列数据救援方法,在不同场景下解决数据高效恢复的问题,具体包括:一种基于交叉校验的低开销数据恢复方法HV-SNSP,基于纠删码的批量并行恢复方法BPR,基于纠删码存储的主动数据恢复方法LEC-PR等。与现有方法相比,HV-SNSP可以减少25%的跨机架带宽,缩短36.58%的恢复时间;BPR可减少10%的跨机架网络传输时间,并提高8%的恢复吞吐量;LEC-PR可缩短恢复时间68%,减少跨节点流量35%。.上述研究对于大数据计算平台的发展将起到重大的推动作用,且更有利于大数据计算平台在诸多领域/行业如医疗、食品安全大数据、金融大数据、交通大数据等的应用,从而对于推进整个社会的发展起到促进作用。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察
一种改进的多目标正余弦优化算法
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
轨迹数据的分布式存储与关键查询优化
多维气候大数据存储与处理关键技术研究
基于健康流数据的健康演进趋势识别与实时状态评测关键技术研究
云存储系统中数据安全关键理论与技术研究