分布式数据存储基础与HDFS操作实践

embedded/2024/12/26 19:22:59/

本篇博客由作者女朋友亲情赞助,本人所撰写内容见资源文件。

1. 虚拟机集群的安装与配置

1.1 创建并配置两个虚拟机

配置网络,让主机和所有部署的虚拟机处于同一个网段下,主机可以去连虚拟机,虚拟机可以去连主机,虚拟机之间也可以相互连接。

(1)寻找空闲的IP地址

(2)进入cd /etc/sysconfig/network-scripts

将bogon切换到localhost:

(3)vi编辑文件ifcfg-ens33

(4)service network restart进行重启

(5)再次通过ping发现主机可以访问到虚拟机,基本配置完成。

3、使用xshell创建namenode和datanode,分别对应两个虚拟机的地址。

输入用户密码进行连接:

4、实现相互免密登录(namenode和datanode都做)

(1)修改主机名,ping的时候可以直接使用对方的主机名。

(2)生成公钥实现免密登录

配置java的jdk

(1)使用winSCP远程传输工具

(2)将java的jdk文件拖入software文件夹中

(3)使用ls看到目录下有了java解压包

(4)解压文件 tar -xzvf jdk-8u65-linux-x64.t.gz

进入配置文件 vi /etc/profile,添加以下配置内容

export JAVA_HOME=/software/jdk/export PATH=.:$PATH:$JAVA_HOME/bin:$PATHexport HADOOP_HOME=/software/hadoopexport PATH=.:$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

(6)让配置文件生效

主节点namenode配置Hadoop

(1)使用winSCP将hadoop压缩文件上传到software目录

(2)解压压缩文件

(3)修改对应的名字

修改Hadoop的配置文件:

core-site.xml、hadoop-env.sh、hdfs-site.xml、mapred-site.xml、slaves、yarn-site.xml

(5)打包Hadoop分发至datanode

进入到software目录后,对hadoop进行打包:

cd /softwaretar -czvf hadoop.tar.gz hadoop

将其分发:

scp hadoop.tar.gz datanode:/software

在分节点进行解压完成配置:

cd /softwaretar -zxvf hadoop.tar.gz hadoop

7、启动集群(namenode完成)

(1)格式化集群

hdfs namenode -format

(2)启动集群

(3)jps查看状态

(4)查看集群报告

2. 启动Hadoop HDFS

1、进入hadoop的目录

2、启动HDFS:start-dfs.sh

3、使用jps命令查看Java进程,确认NameNode和DataNode等进程正在运行。

3. HDFS基本操作实践

1、使用hdfs dfs -mkdir命令创建新的目录。

2、使用hdfs dfs -put命令上传本地文件到HDFS。

遇到问题:There are 0 datanode(s) running and no node(s) are excluded in this operation.

hdfs dfsadmin -report全为0:

解决方案:①格式化多次,在core-site.xml中把file:/data/hadoop/tmp目录全部删除

②datanode: nodemanager running as process 6332. Stop it first.

这个错误提示表明NodeManager(YARN的组件)在使用DataNode所需的端口或资源,所以DataNode无法启动。可以通过以下步骤解决此问题:

因为NodeManager和DataNode使用的资源冲突,首先需要停止NodeManager进程,然后再启动DataNode。

执行以下命令停止NodeManager:

$HADOOP_HOME/sbin/yarn-daemon.sh stop nodemanager

确保NodeManager已成功停止。

③使用以下命令检查 DataNode 是否在所有相关节点上运行:

$HADOOP_HOME/sbin/hadoop-daemon.sh status datanode

如果 DataNode 未启动,可以尝试在各节点上启动它:

$HADOOP_HOME/sbin/hadoop-daemon.sh start datanode

之后,再次运行 hdfs dfsadmin -report 检查容量状态。

可以看到集群中有1个正常运行的DataNode,问题成功得到了解决。

使用hdfs dfs -get命令下载HDFS上的文件到本地。

4、使用hdfs dfs -cat命令查看HDFS上的文件内容。

5、使用hdfs dfs -rm命令删除HDFS上的文件。


http://www.ppmy.cn/embedded/148976.html

相关文章

面试题整理16----节点NotReady可能的原因?会导致哪些问题?

面试题整理16----节点NotReady可能的原因?会导致哪些问题? 1. 节点NotReady的可能原因2. 节点NotReady可能导致的问题 在Kubernetes集群中,节点NotReady状态表示该节点当前不可用或不健康,无法接受新的工作负载或调度新的Pod。以下…

Spring Cloud Gateway 源码

Spring Cloud Gateway 架构图 按照以上架构图,请求的处理流程: 1.客户端请求发送到网关 DispatcherHandler 2.网关通过 HandlerMapping 找到相应的 WebHandler 3.WebHandler生成FilterChain过滤器链执行所有的过滤器 4.返回Response结果 自动装配类Gat…

【玩转OCR | 腾讯云智能结构化OCR在图像增强与发票识别中的应用实践】

🌈个人主页: Aileen_0v0 🔥热门专栏: 华为鸿蒙系统学习|计算机网络|数据结构与算法 ​💫个人格言:“没有罗马,那就自己创造罗马~” 文章目录 引言 图像增强API调用实践1. API选择与参数设置2. 在线调试与结果分析3. 响应结果具体实现代码 发票…

阿里云DataWorks产品使用

大家好,我是 V 哥。DataWorks 是阿里云提供的大数据开发治理平台,它集成了多种大数据引擎,提供了从数据采集、存储、开发、治理到分析和可视化的全生命周期解决方案。以下是对 DataWorks 的详细评测: 任务开发便捷性: …

【C语言】成绩等级制

将成绩分为A、B、C、D、E等级。具体的等级划分如下&#xff1a; A&#xff1a;90分及以上B&#xff1a;80分到89分C&#xff1a;70分到79分D&#xff1a;60分到69分E&#xff1a;60分以下 #include <stdio.h> int main() {float score 0;printf("请输入学生成绩&a…

Java的list中状态属性相同返回true的实现方案

文章目录 项目背景方案一、for循环实现实现思路 方案二、stream实现实现思路 项目背景 在项目中会遇到list中多个状态判断&#xff0c;状态值相等时&#xff0c;总体返回为true。 方案一、for循环实现 实现思路 遍历list&#xff0c;当出现不一致时&#xff0c;直接跳出循环…

VR 动感单车身心调适系统的功能与作用

如今&#xff0c;人们面临着来自各方的压力&#xff0c;国家重视国民身心健康&#xff0c;但人们在实际生活中却缺乏有效的身心调节方式。无论是久坐的白领&#xff0c;还是学业繁重的学生&#xff0c;都存在身体亚健康和心理压力大的问题。传统健身方式枯燥、心理咨询成本高且…

网络管理-期末项目(附源码)

环境&#xff1a;网络管理 主机资源监控系统项目搭建 &#xff08;保姆级教程 建议点赞 收藏&#xff09;_搭建网络版信息管理系统-CSDN博客 效果图 下面3个文件的项目目录(python3.8.8的虚拟环境) D:\py_siqintu\myproject5\Scripts\mytest.py D:\py_siqintu\myproject5\Sc…