Web applications are currently undergoing revolutionary changes and development. As a fundamental component of data center infrastructure, distributed storage systems face severe challenges in stoarge efficiency, adaptability and security, etc. In this project, we explore a cloud storage gateway cooperated architecture for high-efficency massive data storage. In virtue of the ability of computing and persistent caching that cloud storage gateway provides, we are able to reconsider some fundamental theories and key technologies to improve the storage efficency.Our works address several fundamental problems in cloud storage gateway cooperated architecture:(1)Analyze the differences among applications in data redundancy and deduplication characteristic, and propose an application-aware and cross-layer algorithm for data deduplication by effectively utilizing the two-layer architecture.(2)Model the effect of geographical location diversity on the effeciency and cost of distributed data storage, and study the location directed high-efficiency replica management strategy.(3) Integrating the hierarchical coding with the two-layer architecture, and design a cloud storage gateway cooperated coding method to maxmize the storage efficiency.(4) Design a lightweight directory splitting and mapping algorithm to improve the scalability of metadata service in cloud storage gateway.The research on these problems can properly improve the storage efficiency, thus substantially advance the research of massivee data storage.
随着互联网应用的迅猛发展和应用模式的深刻转变,海量数据存储平台作为核心基础设施,在支撑技术、系统规模等方面都经历着新的变化和挑战。随着规模不断增大,现有的分布式存储系统在存储效能、适配性和安全性方面逐渐暴露出许多问题。本课题探索一种云存储网关协同的新型存储架构,利用它提供的协同计算和持久化缓存能力,研究支持多数据中心的高效能分布式数据存储的基础理论和关键技术。具体包括:(1)研究应用感知的重复数据删除跨层设计算法,有效融合应用特征和两层存储架构,提高系统存储效率;(2)分析地理位置及环境差异对存储性能和开销的影响,研究地理位置指导的高效能副本管理技术;3)研究网关协同的高效存储编码理论和方法,将层次式编码与云存储网关架构有效融合,最大化系统存储效能;(4)研究轻量级的目录服务划分和映射算法,提高云存储网关元数据服务的可扩展性。通过解决这些科学问题,有效推进高效能海量数据存储的研究。
本课题针对现代分布式存储系统中存在的存储效能、适配性和安全性等问题,探索一种云存储网关协同的新型存储架构,利用它提供的协同计算和持久化缓存能力,研究高效能分布式数据存储的基础理论和关键技术。具体包括:(1)有效融合应用特征和两层存储架构,提出跨层重复数据检测加速方法Leach,自动学习目标系统重复数据写操作的时空局部性信息,提高数据检测的缓存命中率;提出I/O 缓存感知的重复数据碎片优化方法Carededup,在优化存储空间优化的前提下最大化数据读取性能。提出懒惰的重复数据数据删除方法,有效减少磁盘访问次数,提高系统性能。(2)提出面向SLA的高效能副本管理方法Seadown,面向多数据中心和异构集群的特点,在保证数据完整性的同时关闭大量节点,减少系统功耗。(3)提出网关协同的纠删码聚合解码方法,利用纠删解码的数据聚合特性,节省更多通信开销;提出基于异构失效模型的纠删码存储系统冗余布局策略HeMatch,将纠删码冗余关系与异构失效的存储集群节点进行优化匹配,提高整个系统的数据重构效率和可靠性。(4)提出可扩展的云存储网关元数据服务集群结构,设计基于动态子树划分的目录分配和映射算法,最大限度地保证元数据被均匀分配到每一个目录服务器节点上,在实现负载均衡的同时维护命名空间的局部性。设计和实现云存储网关的分布式缓存系统,提出了综合考虑访问时间间隔和访问次数的JoinIn_LRU算法,有效提高读性能。本课题共发表论文28篇,包括顶级期刊和会议4篇,其中SCI检索共计9篇,EI检索共计27篇,获得发明专利授权2项,培养博士研究生4名。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
钢筋混凝土带翼缘剪力墙破坏机理研究
气载放射性碘采样测量方法研究进展
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
云存储数据安全验证的关键技术研究
基于云存储网关的密文访问控制性能优化关键技术研究
云环境下数据存储安全关键技术研究
面向大数据保护的高效能重复数据删除存储关键技术研究