键值存储系统架构设计与性能优化研究

基本信息
批准号:61772484
项目类别:面上项目
资助金额:64.00
负责人:李永坤
学科分类:
依托单位:中国科学技术大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:吕自成,吕敏,邹懋,张伟韬,吴志勇,汪睿,陈吉强,田成锦,张月明
关键词:
对象存储数据布局纠删码大规模存储系统
结项摘要

With the rapid growth of unstructured data, conventional block-based and file-based storage systems fail to satisfy the application requirements in both aspects of scalability and performance, so key-value store is widely deployed. Most widely used key-value storage systems mainly adopt the structure of LSM-Tree, but it introduces severe write amplification and read amplification problems, which imply that each insert or query operation of a key-value pair may incur multiple I/O operations, and they significantly reduce the read and write performance of key-value systems. Evenworse, when storage coding is employed to improve system reliability, parity updates may exacerbate the write amplification issue. To solve the above issues, we aim to develop a new architecture for key-value storage systems so as to improve both the performance and reliability. Specifically, we follow the idea of key-value separation, and propose a structure of fine-grained levels via grouping for LSM-Tree and a log-structured container management scheme to manage keys and values, respectively, so as to optimize the write performance. We also exploit the access patterns of data, and develop bidirectional LSM-Tree and heterogeneous bloom filters to optimize the read performance. Besides, we introduce storage coding and optimize the management of redundant data, so as to simultaneously improve both the performance and reliability. At last, we develop a system prototype, and run benchmarks to validate the system performance.

随着非结构化数据的快速增长,传统的块存储和文件存储在可扩展性与性能方面均无法满足应用需求,因此键值存储受到广泛应用。当前主流的键值存储系统主要采用LSM-Tree结构,但该类系统也面临严重的读写放大问题,也即每写入/查询一个键值数据可能引发多次I/O,严重降低键值系统的读写性能。此外,当引入存储编码以提升系统可靠性时,校验数据的更新将进一步加剧写放大问题。鉴于此,该项目计划建立键值存储系统新型架构,以优化系统的读写性能与可靠性。特别地,我们计划采取key和value分离的思想,建立基于层组结构的LSM-Tree和基于日志结构的容器管理技术对key和value分别进行管理,以优化系统写性能;同时结合数据访问特征,建立双向LSM-Tree和异构布隆过滤器优化系统读性能;此外,我们引入存储编码并优化冗余数据管理,以同时提升系统性能与可靠性。最后,通过开发原型系统,测试并验证系统的性能。

项目摘要

项目针对键值存储系统开展了深入研究,重点围绕基于LSM-tree的键值存储系统,对其读放大问题、写放大问题、读写均衡问题、可靠性管理问题开展了深入的研究。具体而言,针对读放大问题,提出了基于冷热感知的弹性布隆过滤器管理技术;针对写放大问题,提出了基于哈希的数据分组存储管理技术;针对读写均衡问题,提出了基于LSM-tree和哈希的键值存储统一索引技术以及基于键值分离的差异化键值数据存储技术;针对可靠性问题,首次提出了基于副本解耦的多副本差异化存储技术。以上技术有效提升了键值存储系统的读写性能,同时保证了系统的高可靠。..项目产出方面,共发表/录用论文19篇,包括CCF推荐的A 类会议论文7篇(ATC 4篇,ICDE 2篇,FAST 1篇),A类期刊论文5篇(TPDS 3篇,TOS,TCAD各一篇), B类论文4篇。均已标注项目资助。申请专利3项。键值存储部分成果在PingCAP落地应用,获得优秀合作奖。同时也得到了华为云的支持,签署了新的键值存储合作研究项目。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020
3

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021
4

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021
5

混采地震数据高效高精度分离处理方法研究进展

混采地震数据高效高精度分离处理方法研究进展

DOI:10.3969/j.issn.1000-1441.2020.05.004
发表时间:2020

相似国自然基金

1

云计算环境下键值存储系统查询优化技术研究

批准号:61202067
批准年份:2012
负责人:吴广君
学科分类:F0204
资助金额:22.00
项目类别:青年科学基金项目
2

基于纠删码的异构分布式内存键值存储系统构建及性能优化

批准号:61872130
批准年份:2018
负责人:胡玉鹏
学科分类:F0207
资助金额:64.00
项目类别:面上项目
3

键值对直接存储架构及机制研究

批准号:61872156
批准年份:2018
负责人:曹强
学科分类:F0204
资助金额:16.00
项目类别:面上项目
4

深度学习高性能硬件加速架构研究与设计

批准号:61774082
批准年份:2017
负责人:王中风
学科分类:F0402
资助金额:63.00
项目类别:面上项目