用户数据存储转向云平台已成为一种不可逆转的趋势,然而,现有的分布式文件系统面对这类特殊的应用时,在可扩展性和存储利用率等方面尚存在诸多不足。为了解决上述问题,本课题将重点研究面向用户数据的云存储这类特殊应用的云文件系统。针对这类应用中用户多、访问并发度高、数据量大、数据热点明显的特点,解决分布式文件系统中可扩展性(特别是存储容量和元数据),重复数据消重,数据热点侦测以及面向工作负载的数据放置和自适应负载平衡机制等技术问题;研制高效、易于扩展和管理的面向用户数据在线存储的云文件系统,并利用清华大学已经部署和使用的数据共享平台Corsair进行验证优化。通过上述工作,切切实实推动云存储模式在国内的推广,降低用户数据的存储成本和维护代价,同时提高数据的可用性,使用户切切实实地感受到云存储带来好处;同时为具备条件的企业快速构建自己的云存储平台提供支持。
用户数据存储转向云平台已成为一种不可逆转的趋势,然而,现有的分布式文件系统面对这类特殊的应用时,在可扩展性和存储利用率等方面尚存在诸多不足。为了解决上述不足,本课题面向用户数据的云存储这类特殊的应用,针对这类应用中用户多、访问并发度高、数据量大、数据热点明显的特点,探究了分布式文件系统的可扩展性(特别是存储容量和元数据)、重复数据删除、面向工作负载的数据放置和自适应负载平衡机制等技术问题,主要工作和成果包括:.1. 海量文件系统元数据查询的方法和技术:1) 针对以企业级文件服务器、附网存储设备和部分采用分布式元数据存储的高性能文件系统为代表的典型应用场景, 提出了基于选择性扫描(SmartScan)的元数据快速抓取和同步方法,较好地解决了元数据抓取和同步的效率问题。2) 针对部分存储管理任务对元数据副本和查询结果的 “足够新”的需求,提出了基于文件系统注入的元数据变化跟踪方法。.2. 提出了一种基于键值key-value存储的分布式文件系统元数据管理方法,既保证了高效的元数据访问,又为元数据的修改提供了灵活的接口,能够保证元数据的一致性。.3. 针对虚拟计算环境中的MapReduce负载,提出了一种数据位置感知的优化方法,能够将同一文件块的多个副本均匀分配到不同的物理机中,从根本上减少I/O相互干扰所引起的应用性能急剧下降。.4. 针对虚拟机镜像存储,提出了一种基于重复数据删除技术的存储方法,同时结合P2P技术和按需传输的思想,在节省存储空间的同时,能够有效降低网络负载、加快镜像文件的分发速度。.5. 通过精简元数据信息、改进缺省的数据分布策略等方式,解决了pNFS分布式文件系统在处理海量小文件时性能不足的问题。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
资本品减税对僵尸企业出清的影响——基于东北地区增值税转型的自然实验
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
混采地震数据高效高精度分离处理方法研究进展
移动云存储中面向多用户共享的数据安全技术研究
云存储数据安全验证的关键技术研究
云环境下数据存储安全关键技术研究
云存储中数据泄漏的主动防护关键技术研究