分布式Hadoop环境的安装与搭建

news/2024/10/19 23:44:27/

Hadoop学习笔记

初步了解Hadoop

一、 认识Hadoop

1) Hadoop是一个处理海量数据的框架

2) 可以分布式的处理海量数据

3) 为海量数据提供高效的处理

二、 什么是大数据

1) 单位:bit、byte、kb、mb、gb、tb、pb、eb、zb、yb

2) 数据类型:结构化数据、半结构化数据、非结构化数据

3) 特点:价值低密度(检索了很多信息才能找到对自己有用的信息)

4) 意义:预测作用

三、 Hadoop的优点与缺点

优点:

1) 低成本

2) 高可靠性

3) 高容错性

4) 高效率

5) 高扩展性 (可随时的添加新的集群来提高存储和计算的能力)

6) 不适合处理小文件

缺点:

1) 不适合处理小文件

2) 无法实时计算(实时是马上处理的意思,离线是延迟晚一点处理)

3) 安全性较低

四、建立集群,并设置免密登录,然后设置映射(vi /etc/hosts)

修改完/etc/profile文件后记得用source /etc/profile 刷新文件,才能生效

在这里插入图片描述

五、 安装jdk

1)创建存储数据的目录

2) 创建存放安装程序的目录

3) 创建存放安装包的目录

上传并解压安装包后

配置系统环境变量

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

六、分布式Hadoop

上传安装成功后,检查是否安装成功

在这里插入图片描述

配置环境(用tab键补全,打开文件后按2下大写的GG跳转文件最后一行,节省时间)

1)配置运行环境,先进入以下目录

cd /export/servers/wfb-hadoop/hadoop-3.3.0/etc/hadoop
vi hadoop-env.sh   # 在文件底部添加内容

​ 需要添加:

export JAVA_HOME=/export/servers/jdk1.8.0_241
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

2)配置Hadoop

# 直接按向上方向键,然后把文件名修改为core-site.xml
# 然后在<configuration>标签里添加

​ 需要添加:

<property><name>fs.defaultFS</name><value>hdfs://hadoop1:9000</value>
</property>
<property><name>hadoop.tmp.dir</name><value>/export/dara/hadoop-wfb-3.3.0</value>
</property>
<property><name>hadoop.http.staticuser.user</name><value>root</value>
</property>
<property><name>hadoop.proxyuser.root.hosts</name><value>*</value>
</property>
<property><name>hadoop.proxyuser.root.groups</name><value>*</value>
</property>
<property><name>fs.trash.interval</name><value>1440</value>
</property>

3)配置HDFS

# 同理,把文件名修改为hdfs-site.xml
# 然后在<configuration>标签里添加

​ 需要添加:

<property><name>dfs.replication</name><value>1</value>
</property>
<property><name>dfs.namenode.secondary.http-address</name><value>hadoop1:9868</value>
</property>

4)配置MapReduce

# 同理,把文件名修改为mapred-site.xml
# 然后在<configuration>标签里添加

​ 需要添加:

</property><property><name>mapreduce.framework.name</name><value>yarn</value>
</property>
<property><name>mapreduce.jobhistory.address</name><value>hadoop1:10020</value>
</property>
<property><name>mapreduce.jobhistory.webapp.address</name><value>hadoop1:19888</value>
</property>
<property><name>yarn.app.mapreduce.am.env</name><value>HADOOP_MAPRED_HOME=/export/servers/wfb-hadoop/hadoop-3.3.0</value>
</property>
<property><name>mapreduce.map.env</name><value>HADOOP_MAPRED_HOME=/export/servers/wfb-hadoop/hadoop-3.3.0</value>
</property>
<property><name>mapreduce.reduce.env</name><value>HADOOP_MAPRED_HOME=/export/servers/wfb-hadoop/hadoop-3.3.0</value>
</property>

5)配置YARN

# 同理,把文件名修改为 yarn-site.xml
#  然后在<configuration>标签里添加

​ 需要添加:

<property><name>yarn.resourcemanager.hostname</name><value>hadoop1</value>
</property>
<property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value>
</property>
<property><name>yarn.nodemanager.pmem-check-enabled</name><value>false</value>
</property>
<property><name>yarn.nodemanager.vmem-check-enabled</name><value>false</value>
</property>
<property><name>yarn.log-aggregation-enable</name><value>true</value>
</property>
<property><name>yarn.log-server.url</name><value>http://hadoop1:19888/jobhistory/logs</value>
</property>
<property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value>
</property>

6)配置Hadoop节点运行的服务器

# 同理,把文件名修改为 workers
# 然后把默认的内容,修改成Hadoop1

格式化HDFS文件系统

# 接着上面的内容,你现在所处的位置是/export/servers/wfb-hadoop/hadoop-3.3.0/etc/hadoop
# 先运行2次,cd .. 退回到/export/servers/wfb-hadoop/hadoop-3.3.0
# 最后再格式化
bin/hdfs namenode -format

启动Hadoop

# 启动 HDFS
sbin/start-dfs.sh
# 启动YARN
sbin/start-yarn.sh

查看运行状态

# 输入jps
jps

​ 效果如下:

在这里插入图片描述


http://www.ppmy.cn/news/1450340.html

相关文章

linux jmeter ant下载并安装【2024-亲测】

环境 centos7 一、下载jmeter 在这里插入代码片wget https://dlcdn.apache.org//jmeter/binaries/apache-jmeter-5.6.3.tgz --no-check-certificate解压 tar -zxvf apache-jmeter-5.6.3.tgz复制到安装目录、设置环境变量 vim /etc/profile添加环境变量&#xff0c;路径改成…

4月份全球市场推出的18款网络安全热点产品和服务:生成式AI应用主导安全产品创新

CSO在线追踪了4份全球市场推出的18代表性网络安全产品和服务&#xff0c;从中可以观察网络安全产品创新趋势和风向。 1、Salt Security 在其API保护平台添加 OAuth安全产品 4月25日&#xff1a;Salt Security 在其API保护平台中添加了新的 OAuth 安全产品&#xff0c;以帮助组…

面试经典150题——文本左右对齐

面试经典150题 day24 题目来源我的题解方法一 模拟 题目来源 力扣每日一题&#xff1b;题序&#xff1a;68 我的题解 方法一 模拟 分情况讨论 是最后一行 ------------将所有字符串先组合在一起&#xff0c;然后在末尾加空格是单个单词一行 ------------ 将单个字符串先组合…

conda的一些问题

我是windows&#xff0c;conda下载的包下载到了c盘的.conda文件夹下&#xff0c;这是为什么&#xff1f; Conda 在 Windows 系统上默认会在用户的主目录下创建一个 .conda 文件夹&#xff0c;用来存储一些临时文件和包的缓存。这个路径是由 Conda 的默认配置决定的&#xff0c…

使用hutool工具导入excel Java

Hutool是一个Java工具类库&#xff0c;它提供了一系列实用的API&#xff0c;包括操作Excel的功能。要使用Hutool导入Excel&#xff0c;你可以使用ExcelReader类。以下是一个简单的例子&#xff0c;展示了如何使用Hutool导入Excel文件&#xff1a; import cn.hutool.poi.excel.…

OpenAI 新推出 AI 问答搜索引擎——SearchGPT 震撼登场

您的浏览器不支持 video 标签。 OpenAI-SearchGPT 近日&#xff0c;OpenAI 曝光了自己的一款令人瞩目的 AI 问答搜索引擎——SearchGPT。这款搜索引擎带来了全新的搜索体验&#xff0c;给整个行业带来了巨大的压力。 SearchGPT 支持多种强大的功能。首先&#xff0c;它能够通过…

Ridge,Lasso,Elasticnet回归

本文主要关于多元线性回归&#xff08;MSE&#xff09;与L1&#xff0c;L2范数结合在一起从而提高鲁棒性&#xff0c;即正则化应用于MSE产生的Ridge&#xff0c;Lasso&#xff0c;Elasticnet回归的内容。 一&#xff0c;Ridge回归 岭回归实质上就是普通的MSE加上一项L2惩罚项来…

OpenCV(二)—— 车牌定位

从本篇文章开始我们进入 OpenCV 的 Demo 实战。首先&#xff0c;我们会用接下来的三篇文章介绍车牌识别 Demo。 1、概述 识别图片中的车牌号码需要经过三步&#xff1a; 车牌定位&#xff1a;从整张图片中识别出牌照&#xff0c;主要操作包括对原图进行预处理、把车牌从整图…