分布式Hadoop环境的安装与搭建

server/2024/9/25 4:43:59/

Hadoop学习笔记

初步了解Hadoop

一、 认识Hadoop

1) Hadoop是一个处理海量数据的框架

2) 可以分布式的处理海量数据

3) 为海量数据提供高效的处理

二、 什么是大数据

1) 单位:bit、byte、kb、mb、gb、tb、pb、eb、zb、yb

2) 数据类型:结构化数据、半结构化数据、非结构化数据

3) 特点:价值低密度(检索了很多信息才能找到对自己有用的信息)

4) 意义:预测作用

三、 Hadoop的优点与缺点

优点:

1) 低成本

2) 高可靠性

3) 高容错性

4) 高效率

5) 高扩展性 (可随时的添加新的集群来提高存储和计算的能力)

6) 不适合处理小文件

缺点:

1) 不适合处理小文件

2) 无法实时计算(实时是马上处理的意思,离线是延迟晚一点处理)

3) 安全性较低

四、建立集群,并设置免密登录,然后设置映射(vi /etc/hosts)

修改完/etc/profile文件后记得用source /etc/profile 刷新文件,才能生效

在这里插入图片描述

五、 安装jdk

1)创建存储数据的目录

2) 创建存放安装程序的目录

3) 创建存放安装包的目录

上传并解压安装包后

配置系统环境变量

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

六、分布式Hadoop

上传安装成功后,检查是否安装成功

在这里插入图片描述

配置环境(用tab键补全,打开文件后按2下大写的GG跳转文件最后一行,节省时间)

1)配置运行环境,先进入以下目录

cd /export/servers/wfb-hadoop/hadoop-3.3.0/etc/hadoop
vi hadoop-env.sh   # 在文件底部添加内容

​ 需要添加:

export JAVA_HOME=/export/servers/jdk1.8.0_241
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

2)配置Hadoop

# 直接按向上方向键,然后把文件名修改为core-site.xml
# 然后在<configuration>标签里添加

​ 需要添加:

<property><name>fs.defaultFS</name><value>hdfs://hadoop1:9000</value>
</property>
<property><name>hadoop.tmp.dir</name><value>/export/dara/hadoop-wfb-3.3.0</value>
</property>
<property><name>hadoop.http.staticuser.user</name><value>root</value>
</property>
<property><name>hadoop.proxyuser.root.hosts</name><value>*</value>
</property>
<property><name>hadoop.proxyuser.root.groups</name><value>*</value>
</property>
<property><name>fs.trash.interval</name><value>1440</value>
</property>

3)配置HDFS

# 同理,把文件名修改为hdfs-site.xml
# 然后在<configuration>标签里添加

​ 需要添加:

<property><name>dfs.replication</name><value>1</value>
</property>
<property><name>dfs.namenode.secondary.http-address</name><value>hadoop1:9868</value>
</property>

4)配置MapReduce

# 同理,把文件名修改为mapred-site.xml
# 然后在<configuration>标签里添加

​ 需要添加:

</property><property><name>mapreduce.framework.name</name><value>yarn</value>
</property>
<property><name>mapreduce.jobhistory.address</name><value>hadoop1:10020</value>
</property>
<property><name>mapreduce.jobhistory.webapp.address</name><value>hadoop1:19888</value>
</property>
<property><name>yarn.app.mapreduce.am.env</name><value>HADOOP_MAPRED_HOME=/export/servers/wfb-hadoop/hadoop-3.3.0</value>
</property>
<property><name>mapreduce.map.env</name><value>HADOOP_MAPRED_HOME=/export/servers/wfb-hadoop/hadoop-3.3.0</value>
</property>
<property><name>mapreduce.reduce.env</name><value>HADOOP_MAPRED_HOME=/export/servers/wfb-hadoop/hadoop-3.3.0</value>
</property>

5)配置YARN

# 同理,把文件名修改为 yarn-site.xml
#  然后在<configuration>标签里添加

​ 需要添加:

<property><name>yarn.resourcemanager.hostname</name><value>hadoop1</value>
</property>
<property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value>
</property>
<property><name>yarn.nodemanager.pmem-check-enabled</name><value>false</value>
</property>
<property><name>yarn.nodemanager.vmem-check-enabled</name><value>false</value>
</property>
<property><name>yarn.log-aggregation-enable</name><value>true</value>
</property>
<property><name>yarn.log-server.url</name><value>http://hadoop1:19888/jobhistory/logs</value>
</property>
<property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value>
</property>

6)配置Hadoop节点运行的服务器

# 同理,把文件名修改为 workers
# 然后把默认的内容,修改成Hadoop1

格式化HDFS文件系统

# 接着上面的内容,你现在所处的位置是/export/servers/wfb-hadoop/hadoop-3.3.0/etc/hadoop
# 先运行2次,cd .. 退回到/export/servers/wfb-hadoop/hadoop-3.3.0
# 最后再格式化
bin/hdfs namenode -format

启动Hadoop

# 启动 HDFS
sbin/start-dfs.sh
# 启动YARN
sbin/start-yarn.sh

查看运行状态

# 输入jps
jps

​ 效果如下:

在这里插入图片描述


http://www.ppmy.cn/server/24453.html

相关文章

用Stream流方式合并两个list集合(部分对象属性重合)

一、合并出共有部分 package com.xu.demo.test;import java.util.Arrays; import java.util.List; import java.util.stream.Collectors;public class ListMergeTest1 {public static void main(String[] args) {List<User> list1 Arrays.asList(new User(1, "Alic…

LabVIEW和MES系统的智能化车间数据对接

LabVIEW和MES系统的智能化车间数据对接 随着工业4.0时代的到来&#xff0c;智能制造成为推动制造业高质量发展的重要手段。其中&#xff0c;数字化车间作为智能制造的重要组成部分&#xff0c;其设计与实现至关重要。在数字化车间环境下&#xff0c;如何利用LabVIEW软件与MES系…

Hadoop3:集群搭建及常用命令与shell脚本整理(入门篇,从零开始搭建)

一、集群环境说明 1、用VMware安装3台Centos7.9虚拟机 2、虚拟机配置&#xff1a;2C&#xff0c;2G内存&#xff0c;50G存储 3、集群架构 从表格中&#xff0c;可以看出&#xff0c;Hadoop集群&#xff0c;主要有2部分&#xff0c;一个是HDFS服务&#xff0c;一个是YARN服务 …

Linux配置双网卡,1NAT 2桥接,ARM板上网

1、简介 版本型号&#xff1a;ubuntu18.04 ARM板型号&#xff1a;6ull本文主要记录配置第一次ubuntu与arm板连接的nfs配置和ARM板上网的配置&#xff0c;按照配置网络、配置nfs系统、给板子连网 顺序进行。该配置的前提是创建ubuntu系统的网络配置选择的是NAT模式&…

Elasticsearch内存占用分析

目录 1. 堆内存 (Heap Memory) 2. 索引缓存 (Index Cache) 3. 段缓存 (Segment Cache) 4. 文件系统缓存 (File System Cache) 5. 分片和副本 (Shards and Replicas) 6. 分析器和令牌器 (Analyzers and Tokenizers) 7. 过度配置 (Over-Allocation) 8. 垃圾回收 (Garbage…

基于Spring Boot的口腔管理平台设计与实现

基于Spring Boot的口腔管理平台设计与实现 开发语言&#xff1a;Java框架&#xff1a;springbootJDK版本&#xff1a;JDK1.8数据库工具&#xff1a;Navicat11开发软件&#xff1a;eclipse/myeclipse/idea 系统部分展示 管理员登录界面图&#xff0c;管理员登录进入口腔管理平…

python安装cx_Oracle 遇到的问题

重要&#xff1a; 搞了一天&#xff0c;最后发现是python的版本和cx_Oracle版本对不上。 一开始安装的python版本是3.12&#xff0c;而cx_Oracle的最新版本是8.3.0&#xff0c; 对应的python版本为3.10&#xff0c;因此将python版本降低为3.10&#xff0c; 执行 pip install cx…

react怎么做到点击传参

在React中&#xff0c;点击事件传参通常涉及到在事件处理函数中访问和使用传递的参数。有几种不同的方法可以实现点击传参&#xff0c;这里列出两种常见的方式&#xff1a; 1. 直接在事件处理函数中接收参数 你可以直接在事件处理函数中接收参数&#xff0c;并在调用事件处理…