I/O systems with new storage devices provide an efficient solution for big data accesses. However, due to the characteristics of big data environments, such as hybrid storage devices and complex I/O patterns, data layout schemes of such newer I/O systems are facing severe challenges. From the view of foundation theories and implementation methods, this work intends to solve four basic data layout problems. First, this research plans to increase the accuracy of parallel I/O data access model, so that it can evaluate the data access performance under heterogeneous storage devices, different access patterns, and data layout methods. Second, this work intends to boost the caching system efficiency under the multi-tier storage architecture, which is obtained via a selective cache admission policy and a layout-aware cache data placement method. Third, this study plans to promote the accommodation of data layout policies under the flat storage architecture. By using a varied-size file stripe obtained from a linear-programming optimization method and a region-level file stripe size optimization, these policies can be adaptive to more heterogeneous storage servers and complex access patterns. Finally, this research plans to increase the self-adaption of the I/O system architecture. By combining the multi-tier and flat architecture, the hybrid architecture can further optimize the system resource configuration. This work not only has great significance on the development of big data applications, but also has great value for directing the design of cost-effective big data system platforms.
基于新型存储设备的I/O系统是解决大数据访问的一种有效方案。然而,面对大数据环境下“异构存储设备”和“复杂I/O访问模式”等特征,目前数据布局方法面临着严重挑战。本项目从基本理论和实现方法两个角度研究数据布局的四个基础科学问题:研究并行I/O数据访问成本模型的准确性,确保其在异构存储设备、不同访问模式、多种数据布局下能很好评价数据访问性能;研究分层结构下cache系统数据管理的高效性,提出选择性cache数据进入策略和布局感知的cache数据放置策略,提高cache系统访问性能;研究平面结构下数据布局方法的适应性,提出基于线性优化的分条大小优化方法和区间级分条大小优化算法,以满足多种异构服务器和复杂访问模式的需要;研究I/O体系结构的动态自适应性,通过将分层存储和平面存储两种结构结合起来,进一步优化系统资源配置。本项目对促进大数据应用的发展和高性价比大数据平台构建具有重要价值。
新型存储设备为大数据环境下的I/O访问提供了一个有前景的方案。然而,面对异构的设备特征和复杂的I/O模式,目前大数据存储系统的数据布局方法面临着严重挑战。本项目从基本理论和实现方法两个角度对大数据系统的数据布局技术进行优化。我们取得了如下成果:1,提出了多种并行I/O数据访问成本模型,确保其在异构存储设备、不同访问模式、多种数据布局下能很好评价数据访问性能;2,提出了一种分层I/O结构下的cache系统数据管理机制,通过选择性的cache数据进入策略和布局感知的cache数据放置策略,提高了cache系统的I/O访问性能;3,提出了多种平面I/O结构下的数据放置方法,使得I/O系统在异构设备和复杂访问模式下具有不错的性能;4,设计了一种自适应的I/O体系结构,通过将分层存储和平面存储两种结构结合起来,进一步优化系统资源配置;5,提出了有效的数据数据复制方法,通过利用系统中空闲空间将不同模式访问的数据重新组织到不同副本中,进一步优化 I/O系统性能。大量实验结果表明,与现有方法相比,所提出的方法能极大提高I/O系统性能。本项目不但对大数据应用的发展及其重要,而且对构建高性价比的大数据平台具有重要价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于SSVEP 直接脑控机器人方向和速度研究
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
基于混合存储介质的云存储环境的元数据管理和数据布局研究
虚拟化环境下面向新型存储系统的I/O资源调度方法
面向大数据的混合存储布局优化及安全迁移机制研究
基于新型存储的大数据存取优化技术研究