大数据(Hadoop)学习案例—通过Shell脚本定时采集数据到HDFS

news/2024/12/14 7:42:04/

案例—通过Shell脚本定时采集数据到HDFS

掌握HDFS的Shell操作,能够完成案例-通过Shell脚本定时采集数据到HDFS

在实际的开发环境中,服务器每天都会产生大量的日志文件,这些日志文件会记录服务器的运行状态。当服务器宕机时,可以从日志文件中查找服务器宕机原因,从而尽快让服务器恢复正常运行。通过一个案例演示如何通过Shell脚本周期性的将Hadoop的日志文件上传到HDFS。

目录

  • 1.创建Shell脚本
  • 2.执行Shell脚本
  • 3.验证Hadoop日志文件是否上传成功
  • 4.定时执行Shell脚本
    • 1)检查是否安装Crontab
    • 2)启动Crontab服务
    • 3)添加可执行权限
    • 4)配置定时任务
  • 5.Crontab表达式

1.创建Shell脚本

在虚拟机Hadoop1的/export/data目录下执行vi uploadHDFS.sh命令,在该文件中实现上传Hadoop日志文件到HDFS的代码。

export HADOOP_HOME=/export/servers/hadoop-3.3.0	#export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbinhadoop_log_dir=/export/servers/hadoop-3.3.0/logs/log_toupload_dir=/export/data/logs/toupload/date=`date +%Y_%m_%d_%H_%M`  ‘ ’ “ ”hdfs_dir=/hadoop_log/$date/if [ -d $log_toupload_dir ];
thenecho "$log_toupload_dir exits"
elsemkdir -p $log_toupload_dir
fi
ls $hadoop_log_dir | while read fileName
do
if [[ $fileName == *.log ]];
thenecho "moving hadoop log to $log_toupload_dir"cp $hadoop_log_dir/*.log $log_toupload_dirscp root@hadoop2:$hadoop_log_dir/*.log $log_toupload_dirscp root@hadoop3:$hadoop_log_dir/*.log $log_toupload_direcho "moving hadoop log willDoing"break
fi
doneecho "create $hdfs_dir"
hdfs dfs -mkdir -p $hdfs_dir
ls $log_toupload_dir | while read fileName
doecho "upload hadoop log $fileName to $hdfs_dir"hdfs dfs -put $log_toupload_dir$fileName $hdfs_direcho "upload hadoop log $fileName willDoing"
done
echo "delete $log_toupload_dir log"
rm -fr $log_toupload_dir

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

2.执行Shell脚本

进入到虚拟机Hadoop1的/export/data/目录下,确保Hadoop集群处于启动状态下,执行sh uploadHDFS.sh命令运行Shell脚本文件uploadHDFS.sh。

在这里插入图片描述

3.验证Hadoop日志文件是否上传成功

在本地计算机的浏览器中打开HDFS的Web UI,查看HDFS的/hadoop_log/2022_10_17_17_08/目录中是否存在Hadoop日志文件。

在这里插入图片描述

4.定时执行Shell脚本

1)检查是否安装Crontab

在虚拟机Hadoop1执行rpm -qa | grep crontab命令检查是否安装Crontab。

在这里插入图片描述

若没有显示Crontab的版本信息,可以先安装Crontab。
yum -y install vixie-cron

yum -y install crontabs

2)启动Crontab服务

使用Crontab时,必须保证Crontab服务处于运行状态。启动Crontab服务的命令如下。

service crond start
在这里插入图片描述

3)添加可执行权限

进入虚拟机Hadoop1的/export/data/目录,为Shell脚本文件uploadHDFS.sh添加可执行权限。

chmod 777 uploadHDFS.sh

4)配置定时任务

在虚拟机Hadoop1执行crontab -e命令编辑Crontab文件,配置定时任务,在Crontab文件添加如下内容。

*/10 * * * * /export/data/uploadHDFS.sh

在这里插入图片描述

5.Crontab表达式

*/10 * * * * /export/data/uploadHDFS.sh

字符含义示例
*表示匹配域的任意值在分这个域使用 *,即表示每分钟都会触发事件。
表示匹配域的任意值,但只能用在日期和星期两个域,因为这两个域会相互影响。要在每月的 20 号触发调度,不管每个月的 20 号是星期几,则只能使用如下写法:13 13 15 20 * ?。其中,因为日期域已经指定了 20 号,最后一位星期域只能用 ?,不能使用 *。如果最后一位使用 *,则表示不管星期几都会触发,与日期域的 20 号相斥,此时表达式不正确。
-表示起止范围在分这个域使用 5-20,表示从 5 分到 20 分钟每分钟触发一次。
/表示起始时间开始触发,然后每隔固定时间触发一次在分这个域使用 5/20,表示在第 5 分钟触发一次,之后每 20 分钟触发一次,即 5、 25、45 等分别触发一次。
,表示列出枚举值在分这个域使用 5,20,则意味着在 5 和 20 分每分钟触发一次。
L表示最后,只能出现在日和星期两个域在星期这个域使用 5L,意味着在最后的一个星期四触发。
W表示有效工作日(周一到周五),只能出现在日这个域,系统将在离指定日期最近的有效工作日触发事件。在日这个域使用 5W,如果 5 号是星期六,则将在最近的工作日星期五,即 4 号触发。如果 5 号是星期天,则在 6 号(周一)触发;如果 5 号为工作日,则就在 5 号触发。另外,W 的最近寻找不会跨过月份。
LW这两个字符可以连用,表示在某个月最后一个工作日,即最后一个星期五。
#表示每个月第几个星期几,只能出现在星期这个域在星期这个域使用 4#2,表示某月的第二个星期三,4 表示星期三,2 表示第二个。

http://www.ppmy.cn/news/1554961.html

相关文章

kubectl 使用yaml创建镜像仓库secret

要使用kubectl和YAML文件创建Docker镜像仓库的secret,需要提供适当的凭证。以下是一个YAML文件示例,它定义了一个用于Docker镜像仓库的secret: apiVersion: v1 kind: Secret metadata:name: my-registry-secret type: kubernetes.io/dockerc…

6.数据建模和数据检索及权限检查

总学习目录请点击下面连接 SAP ABAP开发从0到入职,冷冬备战-CSDN博客 目录 1.数据建模和ABAP字典的透明表 现实产品到数据库数据过程 飞行数据模型 做一个简单的引用。 从旅行社来看: 对于开发人员: 透明表 结构体和透明表 在系统中…

【xrdp配置文件】

这里写自定义目录标题 /etc/xrdp/sesman.ini /etc/xrdp/sesman.ini ;; See man 5 sesman.ini for details 这一行提示用户可以查阅手册页来获取更多关于sesman.ini配置文件的细节信息。 [Globals] ListenAddress127.0.0.1 ListenPort3350 EnableUserWindowManagertrue ; Give i…

Linux进程与资源管理

在Linux学习,进行各种操作过程中需要用到很多种命令,本篇主要讲Linux进程与资源管理命令仅供大家参考。绝对是干货满满的一篇文章!!! Linux进程与资源管理命令: 提示:以下是本篇文章正文内容&am…

【0363】Postgres内核 从 XLogReaderState readBuf 解析 XLOG Record( 8 )

上一篇: 【0362】Postgres内核 XLogReaderState readBuf 有完整 XLOG page header 信息 ? ( 7 ) 直接相关: 【0341】Postgres内核 读取单个 xlog page (2 - 2 ) 文章目录 1. readBuf 获取 page header 大小1.1 XLOG record 跨 page ?1.2 获取 XLOG Record 的 长度(xl…

如何编译安装系统settings设置应用(5.0.0-Release)

本文介绍如何在OpenHarmony 5.0.0 r版本中修改系统设置应用,并且编译安装到开发板上 开发环境 1.dayu200开发板 2.OpenHarmony 5.0.0r 固件 3.API12 full sdk (如果安装full sdk过程中出现报错hvigor ERROR: Cannot find module typescript,请参考 h…

「Mac玩转仓颉内测版52」基础篇14 - 递归函数与尾递归优化

本篇详细讲解递归函数及其在仓颉语言中的实现,并介绍尾递归优化的优势。递归是解决分解问题的强大工具,但当递归深度过大时可能导致栈溢出。仓颉语言通过尾递归优化有效避免了这一问题。 关键词 递归函数尾递归尾递归优化栈溢出 一、什么是递归函数&…

Swift 的起源与发展历程:从诞生到繁荣

一、诞生背景 (一)苹果生态需求 iOS 与 macOS 发展瓶颈 旧语言性能局限:Objective-C 在 iOS 和 macOS 开发中逐渐暴露出性能瓶颈,尤其是在处理大量数据和复杂算法时效率低下。例如,在图形渲染和数据处理密集型应用中&…