Hadoop特点和HDFS命令

devtools/2025/1/23 1:16:09/

Hadoop的特点

高扩展性: 可以根据数据量的增长进行扩展,可以扩展到数千台机器,每个机器都可以提供本地计算和存储资源

高容错性: 自动保存数据的多个副本,并能够在硬件故障的情况下重新分配计算任务,从而确保系统的高可用性和数据的不丢失。(默认备份3份)

HDFS的心跳机制

心跳机制:  DataNode向NameNode发送心跳信号和块报告

Hadoop中的心跳间隔默认为3秒,这个间隔时间可以通过参数dfs.heartbeat.interval进行调整

查看Hadoop 有没有正常启动 JPS

JPS: 查看当前Java进程的状态,J---java; PS ----“Process Status”

由于Hadoop的大多数守护进程都是用Java编写的,所以jps可以帮助管理员快速检查Hadoop守护进程是否已经启动并在运行。

 hdfs dfs

hdfs  dfs 命令相当于help命令,回车后会显示HDFS支持的所有命令 

hdfs dfs是所有hdfs命令的前缀

创建目录 mkdir

即  hdfs dfs -mkdir  绝对路径

在服务器终端上访问HDFS时所有路径必须是绝对路径, 因为当前环境是linux

在HDFS中,ls 默认加文件属性,没有ll选项

-p即"parent",允许递归创建目录,即如果指定的目录路径中包含多个层级,那么 -p 选项会确保所有父级目录都被创建。如果没有 -p 选项,当父目录不存在时,命令会失败。

上传文件 put

put 最常见的上传命令,用于将本地文件系统中的一个或多个文件复制到HDFS中。该命令在上传完成后会保留本地文件.

  • 如果目标路径已存在,该命令会覆盖现有文件,除非使用了 -f(force)选项来禁止覆盖。

  • 使用 -p 选项可以保留本地文件的属性,如权限和时间戳,  这样,上传到HDFS的文件将具有与本地文件相同的元数据。"preserve"

move不保留本地文件,copy保留本地文件

创建空文件 touchz

如果指定的文件已经存在,该命令不会覆盖现有文件。

需要有路径

generic options  通用选项,

-f ----force 强制

P----"preserve"保留

D----"define"定义

注:

分布式文件系统(如Hadoop的HDFS)本身并不包含文本编辑器,如vim。在分布式文件系统中编辑文件,通常需要将文件从分布式文件系统下载到本地文件系统,然后使用本地的文本编辑器(如vim)进行编辑。编辑完成后,你可以使用分布式文件系统的命令(如hdfs dfs -put)将修改后的文件重新上传到分布式文件系统中。

追加内容 appendToFile

把本地文件的内容上传到hdfs的文件里
Hue文件浏览器的变化
上传前
执行上传命令并刷新后

查看目录 ls 

-d   "directory"

-h "human-readable"

-R "recursive"

在HDFS中,ls 默认加文件属性,没有ll选项

查看文件内容 cat /tail

cat 命令解释

[-ignoreCrc]hdfs dfs -cat 命令的一个可选参数,其作用是在查看文件内容时忽略CRC校验。CRC(Cyclic Redundancy Check)是一种用于检测数据传输错误的校验方法。在HDFS中,每个文件块都有一个关联的CRC值,用于验证数据的完整性。

使用 -ignoreCrc 选项时,即使CRC校验失败,命令也会显示文件的内容。这在某些情况下可能是有用的,例如,当你怀疑CRC校验失败是由于非数据损坏的原因(如网络问题)导致的,而你仍然需要查看文件内容。

<src> 是一个参数占位符,你需要将其替换为实际文件的绝对路径。"source"

tail命令解释

使用 -f 选项来持续显示文件的最后1000行,直到你手动停止命令。如果没有使用 -f 选项,命令只会显示文件的最后1000行一次,然后退出。

命令示例
注: 写绝对路径

下载文件 get / move /copy

[-p] 选项代表 "preserve"。这个选项用于保留文件的属性,如权限和时间戳

[-ignoreCrc] 选项用于忽略CRC校验

[-crc] 选项用于在文件传输过程中计算CRC校验和,以确保数据的完整性。如果文件在传输过程中损坏,CRC校验可以帮助检测到这一点。

<src> 是一个参数占位符,你需要将其替换为实际文件的绝对路径。"source"

copy和get 相同,move原文件不保留

示例

Hue网页上下载

合并下载 getmerge

多个文件合并下载到一个文件 

[generic options]:占位符, 表示可以使用一些通用的选项来修改命令的行为

  • [-nl]:可选选项,如果指定,合并后的文件中不包含原始文件的行号。

示例

再次合并走的是覆盖

移动文件/改名 mv

移动 路径相同文件名称不同时就是改名

[generic options]通用选项

示例

复制 cp 

复制 hdfs 中的文件到 hdfs 的另一个目录

删除 rm / rmdir

删除文件

删除目录 

  • --ignore-fail-on-non-empty:这是一个可选参数,如果指定了这个参数,当尝试删除非空目录时,命令不会报错,而是忽略该操作。如果没有指定这个参数,尝试删除非空目录将导致命令执行失败。

  • <dir>:这是要删除的目录的路径。可以指定多个目录路径,用空格分隔

示例: 

查看磁盘利用率和文件大小 df /du

df 命令

du 命令 

  • du:是"disk usage"的缩写,用于估算文件或目录的磁盘空间使用量。

  • [-s]:是一个可选参数,表示仅显示指定目录的总磁盘使用量,而不显示其子目录的详细使用情况。s即sum

 

 

fs 是 Hadoop 文件系统(Hadoop FileSystem)的缩写

修改权限 chgrp, chmod, chown

 

 

 

修改文件的副本数 setrep

 

rep 即replication副本; -R即 "Recursive" 递归; w 即 "Wait"

fs 是 Hadoop 文件系统(Hadoop FileSystem)的缩写

查看文件状态 state 

只能查看当前文件的

从Hue文件浏览器上查看

判断 test

 

示例

Tue 平台

文件/目录

编辑文件


http://www.ppmy.cn/devtools/152738.html

相关文章

nginx实现负载均衡

通过配置 Nginx 实现负载均衡&#xff0c;提高系统的可用性和容错性&#xff1b;分担流量&#xff0c;优化性能和响应速度&#xff1b;便捷地扩展后端服务器&#xff0c;支撑更高的并发&#xff1b;提升系统的安全性&#xff0c;保护后端服务器&#xff1b;灵活地配置负载均衡策…

Oracle 数据库常见字段类型大全及详细解析

在工作期间会遇到数据库建表的业务&#xff0c;经常会使用复制粘帖等操作&#xff0c;而不清楚数据库的字段类型。本文记录了 Oracle 数据库常见字段类型&#xff0c;根据不同的数据需求&#xff0c;可以选择不同的字段类型来存储数据。 文章目录 一、字符类型&#xff08;Char…

电子商务的安全

1 9 8 8年11月3日&#xff0c;美国数千名计算机系统操作员和系统管理员上班后都发现计算机系统不作了&#xff0c;不管他们怎么尝试&#xff0c;计算机都不响应。追查这个灾难事件后发现是康奈尔大学2 3岁的研究生小罗伯特莫里斯&#xff08; Robert Morris Jr.&#xff09;干的…

20250120 深入了解 Apache Flink 的 Checkpointing

Apache Flink 是一种用于实时流处理和批处理的分布式计算框架。在实时流处理任务中&#xff0c;保证数据的一致性和任务的容错性是至关重要的&#xff0c;而 Flink 的 Checkpointing 机制正是实现这一目标的核心技术。 本文将详细介绍 Flink 的 Checkpointing&#xff0c;包括…

Dockerfile另一种使用普通用户启动的方式

基础镜像的Dockerfile # 使用 Debian 11.9 的最小化版本作为基础镜像 FROM debian:11.11# 维护者信息 LABEL maintainer"caibingsen" # 复制自定义的 sources.list 文件&#xff08;如果有的话&#xff09; COPY sources.list /etc/apt/sources.list # 创建…

【深度学习】神经网络之Softmax

Softmax 函数是神经网络中常用的一种激活函数&#xff0c;尤其在分类问题中广泛应用。它将一个实数向量转换为概率分布&#xff0c;使得每个输出值都位于 [0, 1] 之间&#xff0c;并且所有输出值的和为 1。这样&#xff0c;Softmax 可以用来表示各类别的预测概率。 Softmax 函…

Docker:基于自制openjdk8镜像 or 官方openjdk8镜像,制作tomcat镜像

一、制作openjdk8基础镜像【基于自定义alpine-3.18.0:v1 】 docker pull maven:3.5.0-jdk-8-alpine 78.56 MB https://hub.docker.com/_/maven/tagspage8&namealpine openjdk二进制下载地址 https://blog.csdn.net/fenglllle/article/details/124786948 https://adoptope…

商汤善惠获金沙江创投领投A轮融资,聚焦零售AI业务

1月20日&#xff0c;商汤善惠宣布完成A轮融资&#xff0c;本轮融资由金沙江创投数千万元领投&#xff0c;微木资本、嘉实基金和金弘基金等知名资管平台和产业资本数千万元跟投&#xff0c;鞍羽资本担任长期财务顾问。 此次融资将重点投向零售AI算法研发创新、海外市场拓展战略…