HDFS读、写性能概率建模与模型迁移方法研究

基本信息

批准号：61502379

项目类别：青年科学基金项目

资助金额：20.00

负责人：董博

学科分类：

依托单位：西安交通大学

批准年份：2015

结题年份：2018

起止时间：2016-01-01 - 2018-12-31

项目状态：已结题

项目参与者：张未展,魏笔凡,贺欢,马天,阮建飞,晋毓泽

关键词：

概率建模Hadoop分布式文件系统性能建模迁移学习

结项摘要

Performance modeling for Hadoop Distributed File System (HDFS) has attracted significant attentions. Through a lot of experiments, we have investigated that HDFS performance has a unique probability distribution, which contains useful information. However, there is no research on probabilistic modeling for HDFS performance. Moreover, HDFS performance modeling is mainly based on a single modeling method, such as experimental modeling or analytical modeling, each of which has its own weakness. Model transferring between different platforms is still a challenge for HDFS performance modeling. Thus, this project aims to propose an “experimental modeling + analytical modeling + transfer learning”-based probabilistic modeling method for HDFS performance.. First, for file sizes in the range of (0, BS], experimental modeling methodology is used for HDFS performance modeling. Specially, a “Probability Density Estimation” method is proposed, which has two steps: (1) predicting characteristic index values and (2) restituting probability density function. Second, for file sizes in the range of (BS, +∞), analytical modeling methodology is used, and a “Probability Density Superposition”-based performance modeling method is proposed. Then, for HDFS performance modeling of a new platform, transfer learning methodology is used, and an “instance-based transfer learning” method is proposed to build approximate probabilistic models.. The proposed methods can build probabilistic models for HDFS performance of different platforms, and will reduce the cost of modeling and improve the efficiency of modeling. Moreover, the methods can also be useful for other data-intensive file systems.

HDFS性能建模是云计算领域研究热点之一。HDFS性能具有独特的概率分布特征，蕴含着有用的信息。但当前尚未开展HDFS性能概率建模研究；并且HDFS性能建模主要使用单一建模方法，性能模型迁移方法的研究处在起步阶段。为此，本项目研究一种“实验建模、分析建模与迁移学习结合”的HDFS读、写性能概率建模方法。.首先，基于HDFS工作机理，对文件大小域(0, BS]范围的文件大小（BS代表块长），采用实验建模，提出基于“特征指标值预测-概率密度还原”的性能概率密度函数估计方法；对文件大小域(BS, +∞)的文件大小，采用分析建模，提出基于概率密度叠加的性能建模方法。其次，对新平台的HDFS性能概率建模，提出基于实例迁移的HDFS性能概率建模方法。.以上方法能够建立不同平台HDFS读、写性能在文件大小域的概率模型，减少建模成本、提高建模效率，对其它数据密集型文件系统性能建模具有借鉴意义。

项目摘要

性能建模是云计算和大数据领域研究热点之一。以大数据分析为应用背景，研究数据密集型文件系统和计算的建模关键技术。主要研究内容包括：Hadoop分布式文件系统性能建模、基于系统辨识的Hadoop MapReduce性能建模、公有云环境下Spark性能建模和资源优化配置方法和Virtual Machine Consolidation性能建模与死锁避免策略。研究成果发表学术论文14篇，授权国家发明专利2项；成功部署于国税总局“金税三期”决策支持风险管理、纳税人信用管理、个人税收管理等跨省应用系统，实现了“总局+省局”多Hadoop数据中心。并作为主要研究成果获2017年度国家科学技术进步二等奖，项目负责人为第六完成人。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2021

DOI：10.3969/j.issn.1001-1978.2022.02.019

发表时间：2022

DOI：10.1360/SSM-2020-0035

发表时间：2020

DOI：10.3901/jme.2022.04.048

发表时间：2022

DOI：

发表时间：2015

董博的其他基金

批准号：11802008

批准年份：2018

资助金额：26.00

项目类别：青年科学基金项目

批准号：61703055

批准年份：2017

资助金额：19.00

项目类别：青年科学基金项目

相似国自然基金

基于电致离子输运的稀土配合物光写电读存储器的设计及性能研究

批准号：61504154

批准年份：2015

负责人：伊晓辉

学科分类：F0408

资助金额：21.00

项目类别：青年科学基金项目

自旋轨道矩反转可电写电读的人工反铁磁体研究

批准号：51871112

批准年份：2018

负责人：颜世申

学科分类：E0107

资助金额：60.00

项目类别：面上项目

炼胶过程的特征生成迁移建模与概率排胶研究

批准号：61873241

批准年份：2018

负责人：刘毅

学科分类：F0303

资助金额：58.00

项目类别：面上项目

基于概率图模型的视角无关人体动作建模与识别方法研究

批准号：61103123

批准年份：2011

负责人：姬晓飞

学科分类：F0210

资助金额：21.00

项目类别：青年科学基金项目

HDFS读、写性能概率建模与模型迁移方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

长链基因间非编码RNA 00681竞争性结合miR-16促进黑素瘤细胞侵袭和迁移

TRPV1/SIRT1介导吴茱萸次碱抗Ang Ⅱ诱导的血管平滑肌细胞衰老

现代优化理论与应用

双相不锈钢水下局部干法TIG焊接工艺

不同内填材料生态复合墙体肋格单元试验研究

董博的其他基金

用于树脂复合材料内部三维变形测量的先进光学相干层析成像方法研究

基于关节力矩估计的可重构机器人分散镇定与最优控制研究

相似国自然基金