Large-scale distributed storage systems, store a substantial amount of data in a large number of low-cost storage nodes, maintaining the integrity of data by storing redundancy, which become key support on Internet and DCN applications. To compensate for potential losses of data, the amount of redundancy should be maintained such that when a node fails, the corresponding amount of redundancy should be regenerated. Large-scale distributed storage systems, generally, are featured by heterogeneous computing, storage and bandwidth. Existing works commit to reduce the regeneration time by either minimizing the regenerating traffic, or adjusting the regenerating traffic patterns, whereas nodes participating the regeneration are generally assumed to be given beforehand. However, real-world distributed storage systems usually exhibit heterogeneous link capacities, and the regeneration time is highly related to the selection of the participating nodes. Data update makes big challenges under coding mechanisms, since it will cause more computation and transmission, in comparison with duplication methods. In this project, we will study the selection of storage nodes, provider nodes, newcomer nodes and even their joint selection. Based on this, we will propose corresponding coding algorithms and regenerating methods. Moreover, we will study and present the optimization of bandwidth and I/O operation when coding and update coexist.
大规模分布式存储系统,通过网络将大量低成本存储节点连接起来,提供可靠的数据访问服务,是互联网应用、数据中心服务的重要支撑技术。在实际系统中,针对因存储节点失效造成的数据不可访问甚至数据永久丢失,数据冗余修复技术发挥着重要作用。大规模分布式存储系统,一般具有节点计算、存储、带宽等异构性,因(使用的)节点不同会造成编码开销、修复开销的显著差异;因原始数据更新,每一个存储节点上的数据也需要相应更新,与副本方式相比,编码方式时数据更新更复杂、更具挑战性。本课题将对上述因大规模和冗余编码带来的性能问题开展研究,针对大规模分布式存储系统中的节点选择机制,研究并提出异构环境下的存储节点选择策略、供应节点选择策略、新生节点选择策略及联合选择策略;在此基础上研究并提出数据再生编码方案和修复方案;针对因数据更新造成的编码数据更新,研究适合编码操作的数据更新策略,优化编码数据更新中的网络带宽和磁盘I/O开销。
大规模分布式存储系统,通过网络将大量低成本存储节点连接起来,提供可靠的数据访问服务,是互联网应用、数据中心服务的重要支撑技术。在实际系统中,针对因存储节点失效造成的数据不可访问甚至数据永久丢失,数据冗余修复技术发挥着重要作用。大规模分布式存储系统,一般具有节点计算、存储、带宽等异构性,因(使用的)节点不同会造成编码开销、修复开销的显著差异;因原始数据更新,每一个存储节点上的数据也需要相应更新,与副本方式相比,编码方式数据更新更复杂、更具挑战性。本课题将对上述因大规模和冗余编码带来的性能问题开展研究,针对大规模分布式存储系统中的节点选择机制,研究并提出异构环境下的存储节点选择策略、供应节点选择策略、新生节点选择策略及联合选择策略;在此基础上研究并提出数据再生编码方案和修复方案;针对因数据更新造成的编码数据更新,研究适合编码操作的数据更新策略,优化编码数据更新中的网络带宽和磁盘I/O开销。.在测试和分析现有编码方案和测试分布式存储系统的性能基础上,本项目确定了数据读写、更新和修复操作成为当前编码分布式存储系统性能瓶颈的原因。通过理论分析编解码过程,本项目研究了编码情况下不同操作性能编码上界。本项目引入异构网络/节点协作传输、流水线资源调度及编码计算序列调度等性能方案,并提出了性能优化方案提升分布式存储系统数据读写、更新和修复操作的性能。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
内点最大化与冗余点控制的小型无人机遥感图像配准
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
面向大数据应用的分布式海量存储系统性能优化关键技术研究
面向大规模优化问题的分布式Memetic算法研究
面向闪存固态盘冗余阵列存储系统的关键技术研究
分布式存储系统中数据再生的磁盘读写开销优化研究