With the explosive growth of data, the energy efficiency of datacenter storage systems has become increasingly prominant. Currently the workloads of datacenter, which are mainly dominated by data-intensive applications, present new features in terms of task handling, data management and I/O characteristics. However, existing energy efficiency optimizing methods for storage systems are not well suited to the above new features. This project plans to do research in (1) The strategy of task decomposition and scheduling, which combines data placement and characteristics of storage devices. By deferring the scheduling of partial non-critical sub-tasks, the standby time of some hard disks can be extented. (2) The method of workload characteristics aware data transformation . Based on the differences in data access pattern and QoS among different stages, data can be transformed on demand, and thus reducing the I/O cost of unnecessary data transformation. (3) The strategy of data distribution optimizing the efficiency of storage space and storage bandwidth. Through data replication and write redirection, random I/Os can be aggregated, and the cost of disk seeks can be reduced and the efficiency of data transformation can be improved. The above three aspects optimize the I/O behaviors which have significant effects on the performance and energy consumption of storage systems, and improve the performance and energy efficiency of storage systems under the preconditions of QoS satisfaction.
随着数据量爆炸式增长,数据中心存储系统的能效问题日益突出。当前数据中心主要运行数据密集型应用,在任务处理、数据组织和I/O负载等方面呈现出新的特征。然而,已有存储系统能效优化技术不能有效地适应新的特征。本项目拟研究(1)结合数据分布和存储设备特征的任务分解与调度策略,通过延缓部分非关键子任务的执行,延长磁盘处于休眠状态的时间;(2)感知负载特征的数据组织变换策略,依据不同阶段数据访问特征与服务质量需求的差异,按需调整数据组织,减少不必要的数据组织变换带来的I/O开销;(3)优化存储空间利用率和存储带宽利用率的数据分布策略,通过数据复制和写重定向聚合读写I/O,减少磁盘寻道开销并提升数据分布效率。上述三个层面的研究分别从任务处理、数据组织和I/O负载的角度,优化对存储系统性能和能耗有关键影响的I/O行为,在保证满足服务质量需求的前提下,达到提升数据中心存储系统性能和能效的目的。
随着数据量的爆炸式增长,数据中心存储系统的能效问题日益突出。针对这些问题,从大数据集群、磁盘阵列、文件系统元数据管理、重删文件系统、键值存储系统等多个角度进行了研究。从大数据集群角度,对其运行过程中的行为进行了监测,对负载进行了统计、分析,得出 task slots 个数变化、内存大小变化、 MapReduce 中间结果是否压缩等对大数据存储和计算系统的性能和能耗的影响,相关测试结果为后续的深入研究提供了理论和实践依据。从任务特征角度,研究了扫描操作不同的数据精确度需求,对存储系统能耗的影响,提出了一种可自定精度的键值数据扫描算法,有效降低了扫描操作对磁盘的访问,提升了系统能效。从磁盘块级层面,对 I/O 在磁盘上的分布特点进行了研究,针对旋转日志架构 RoLo 中日志盘上日志 I/O 和同步 I/O 冲突的问题,提出了类似“斑马线”的 I/O分布机制,有效降低了磁头移动,提升了系统能效。从文件系统层面,对重删文件系统和文件系统元数据存储机制进行了研究,分别提出了基于键值存储系统的重删文件系统和基于元数据存储优化的文件系统,分别从数据冗余和元数据组织等角度提升了系统能效。从键值存储层面,针对即时更新、延迟更新等多种数据结构分别侧重于不同负载特征的特点,提出了一种在线的数据结构转换机制“变色龙”,提升了数据组织转换的效率;对广泛应用的 LSM-Tree 结构,针对影响其能耗的关键的Compaction 过程,分别从计算与 I/O 流水化、键值数据跳动机制、延迟 Compaction等多个方面进行了优化,提出了PCP、SkipStore和dCompaction三种机制,有效提升了系统能效。..在项目资助下,取得了丰富成果,发表论文16篇,完成率267%,其中被IEEE TC和IEEE TPDS等CCF-A类国际期刊和会议录用的论文2篇,被IEEE IPDPS和JCST等CCF-B国际期刊和会议录用的论文2篇;提交专利申请17项,完成率567%,其中10项为华为技术有限公司与中科院计算所共有,在华为第三代数据中心中起到了重要作用;培养博士2人,硕士6人;项目负责人岳银亮晋升为副研究员,并成功入选中科院院级人才计划“中国科学院青年创新促进会”。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
面向云工作流安全的任务调度方法
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
环形绕组无刷直流电机负载换向的解析模型
数据中心热管理与能效的优化理论研究
面向MapReduce的网络存储系统优化技术研究
资源虚拟化环境中面向I/O密集型负载的能效优化策略研究
面向数据中心混合负载的数据存储结构及其转换技术研究