Hadoop3教程(二十七):(生产调优篇)HDFS读写压测

news/2024/11/22 22:46:35/

文章目录

  • (146)HDFS压测环境准备
  • (147)HDFS读写压测
    • 写压测
    • 读压测
  • 参考文献

(146)HDFS压测环境准备

对开发人员来讲,压测这个技能很重要。

假设你刚搭建好一个集群,就可以直接投入生产了吗?

那当然不行,还需要对集群进行压测,一方面是测试集群的读写性能,多大的数据耗时多久才能读写完成,另一方面也是测试集群是否会崩溃。

HDFS的读写性能主要受网络和磁盘的影响比较大。教程里为了方便测试,将三台节点的虚拟机网络都设置为100mbps,先人为抹掉网络的影响。

注意,100mbps单位是bite,1字节等于8bite,所以实际设置的网速是12.5M/s.

在这里插入图片描述

(147)HDFS读写压测

hadoop自带的tests.jar包就是专门用来做压测的。

位置是/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar

这个包下有多个模块,比如说TestDFSIO模块,就是用来做HDFS读写压测的。

写压测

原理是什么呢?

在这里插入图片描述

提交10个文件,开启10个MapTask,每个MapTask开始向当前节点HDFS写数据,每个Map会记录下写的时间和平均速度,而ReduceTask会汇总每个MapTask的写入时间和平均速度。

会计算3个指标:

  • 所有数据量累加 / 所有数据写时间累加,即集群整体吞吐量Throughput;
  • 所有平均速度累加 / 10,即平均MapTask的吞吐量Average IO rate;
  • 方差,反应各个MapTask处理的差值,越小越均衡,IO rate std deviation。

使用方法以及对应的指标输出:

[atguigu@hadoop102 mapreduce]$ hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB2021-02-09 10:43:16,853 INFO fs.TestDFSIO: ----- TestDFSIO ----- : write
2021-02-09 10:43:16,854 INFO fs.TestDFSIO:             Date & time: Tue Feb 09 10:43:16 CST 2021
2021-02-09 10:43:16,854 INFO fs.TestDFSIO:         Number of files: 10
2021-02-09 10:43:16,854 INFO fs.TestDFSIO:  Total MBytes processed: 1280
2021-02-09 10:43:16,854 INFO fs.TestDFSIO:       Throughput mb/sec: 1.61
2021-02-09 10:43:16,854 INFO fs.TestDFSIO:  Average IO rate mb/sec: 1.9
2021-02-09 10:43:16,854 INFO fs.TestDFSIO:   IO rate std deviation: 0.76
2021-02-09 10:43:16,854 INFO fs.TestDFSIO:      Test exec time sec: 133.05
2021-02-09 10:43:16,854 INFO fs.TestDFSIO:

上面代码中,TestDFSIO指启用HDFS读写测试

-write表示启动写测试,

-nfFiles 10表示提交10个文件,对应生成MapTask的数量,而提交的文件数,一般是集群CPU总核数 - 1。

-fileSize 128MB表示每个文件大小是128MB。

注意,如果测试过程中出现异常,可以取消掉虚拟内存,具体方式为修改yarn-site.xml文件:

<!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->
<property><name>yarn.nodemanager.vmem-check-enabled</name><value>false</value>
</property>

然后xsync yarn-site.xml分发配置,并顺便重启yarn。

测试结果怎么分析呢?

以上面的输出为例,我们的压测后速度是1.61,每个文件默认3个副本,但由于副本1,即文件本身都在节点1上,所以我们在写数据的时候,每个文件相当于只写了2个副本,即节点2和节点3上。

在这里插入图片描述

所以参与测试的文件就是20个。(如果客户端不在集群节点上,那么就三个副本都参与计算。就是30个文件了)

实测速度:1.61*20=32M/s

三台服务器的总带宽:12.5*3=37M/s

基本相当于所有网络资源都已经用满。

如果实测速度远远小于网络速度,且不能满足工作需求,那么可以采用固态硬盘或者增加磁盘个数等。

读压测

原理差不多,命令就换成了:

[atguigu@hadoop102 mapreduce]$ hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -read -nrFiles 10 -fileSize 128MB2021-02-09 11:34:15,847 INFO fs.TestDFSIO: ----- TestDFSIO ----- : read
2021-02-09 11:34:15,847 INFO fs.TestDFSIO:             Date & time: Tue Feb 09 11:34:15 CST 2021
2021-02-09 11:34:15,847 INFO fs.TestDFSIO:         Number of files: 10
2021-02-09 11:34:15,847 INFO fs.TestDFSIO:  Total MBytes processed: 1280
2021-02-09 11:34:15,848 INFO fs.TestDFSIO:       Throughput mb/sec: 200.28
2021-02-09 11:34:15,848 INFO fs.TestDFSIO:  Average IO rate mb/sec: 266.74
2021-02-09 11:34:15,848 INFO fs.TestDFSIO:   IO rate std deviation: 143.12
2021-02-09 11:34:15,848 INFO fs.TestDFSIO:      Test exec time sec: 20.83

注意,模块用的都是TestDFSIO,但是后面的参数改成了-read

读的速度是很快的,且读取文件速度大于网络带宽。这是由于目前只有三台服务器,且有三个副本,数据读取就近原则,相当于都是读取的本地磁盘数据,没有走网络。

在这里插入图片描述
最后记得删除一下测试生成的数据:

[atguigu@hadoop102 mapreduce]$ hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -clean

因为是官方提供的包,所以我们在实现整个压测的时候,还是比较轻松的。
如果感情也能这么轻松就好了。

参考文献

  1. 【尚硅谷大数据Hadoop教程,hadoop3.x搭建到集群调优,百万播放】

http://www.ppmy.cn/news/1166568.html

相关文章

气象台使用vr模拟仿真实训教学降低成本投入

气候仿真实验室用于模拟高低温、高湿、干燥、阳光光照、降雨、降雪、覆冰、雾天与强风等多种环境适应性试验等气候和环境条件&#xff0c;在环境试验中&#xff0c;温度、湿度、光照、降雨这些常见的仿真环境都很容易实现。而比较少见的雾天、强风、降雪等环境就比较难。因此为…

【计算机网络】网络编程 Socket

目录 1.TCP和UDP的区别 2.基于UDP的 Socket API 总结 3.基于TCP的Socket API 服务器程序的问题 网络编程的目的&#xff1a;通过网络&#xff0c;让不同主机之间能够进行通信。 在进行网络编程的时候&#xff0c;需要操作系统提供一组API&#xff0c;也就是Socket API&am…

【异步爬虫】requests和aiohttp中代理IP的使用

前言 在进行爬虫开发时&#xff0c;我们常常需要使用代理IP来隐藏自己的真实IP地址&#xff0c;以避免被一些网站限制或封禁。requests和aiohttp是两个非常常用的工具&#xff0c;本文将分别介绍如何在它们中使用代理IP&#xff0c;希望可以帮助大家更好地进行异步爬虫开发。 …

小程序实现后台数据交互及WXS的使用

一&#xff0c;数据交互准备工作 1.1 后端准备 后端部分代码&#xff0c;可自行创建后端代码 package com.zking.minoa.wxcontroller;import com.zking.minoa.mapper.InfoMapper; import com.zking.minoa.model.Info; import com.zking.minoa.util.ResponseUtil; import org…

C# 使用 LibUsbDotNet 实现 USB 设备检测

国庆节回来后的工作内容&#xff0c;基本都在围绕着各种各样的硬件展开&#xff0c;这无疑让本就漫长的 “七天班” &#xff0c;更加平添了三分枯燥&#xff0c;我甚至在不知不觉中学会了&#xff0c;如何给打印机装上不同尺寸的纸张。华为的 Mate 60 发布以后&#xff0c;人群…

Python数据挖掘实用案例——自动售货机销售数据分析与应用

&#x1f680;欢迎来到本文&#x1f680; &#x1f349;个人简介&#xff1a;陈童学哦&#xff0c;目前学习C/C、算法、Python、Java等方向&#xff0c;一个正在慢慢前行的普通人。 &#x1f3c0;系列专栏&#xff1a;陈童学的日记 &#x1f4a1;其他专栏&#xff1a;CSTL&…

java-各种成员变量初始化过程-待完善

前置条件 一、本文章讨论的成员变量 public static final String aa "aa";public static final Integer bb 1;public static final Students cc new Students();public static String aa1 "aa";public static Integer bb1 1;public static String bb2…

华为OD 打印任务排序(100分)【java】A卷+B卷

华为OD统一考试A卷+B卷 新题库说明 你收到的链接上面会标注A卷还是B卷。目前大部分收到的都是B卷。 B卷对应20022部分考题以及新出的题目,A卷对应的是新出的题目。 我将持续更新最新题目 获取更多免费题目可前往夸克网盘下载,请点击以下链接进入: 我用夸克网盘分享了「华为O…