Linux(centos7)部署hadoop集群

news/2024/9/23 14:27:58/

部署环境要求:已完成JDK环境部署、配置完成固定IP、SSH免费登录、防火墙关闭等。

1、下载、上传主机
官网:https://hadoop.apache.org
在这里插入图片描述
2、解压缩、创建软连接
解压:

tar -zxvf hadoop-3.3.6.tar.gz

软连接:

ln -s /usr/local/apps/hadoop-3.3.6 hadoop

3、文件配置
hadoop目录结构
在这里插入图片描述
各个文件夹含义如下:
bin:存放Hadoop的各类程序(命令)
etc:存放Hadoop的配置文件
include:C语言的一些头文件
lib:存放Linux系统的动态链接库(so文件)
libexec :存放配置Hadoop系统的脚本文件(.sh和.cmd)
licenses-binary:存放许可证文件
sbin:管理员程序(super bin)
share:存放二进制源码(Java jar包)

配置集群,主要修改以下几个配置:
workers:配置从节点(DataNode)有哪些
hadoop-env.sh:配置Hadoop的相关环境变量
core-site.xml:Hadoop核心配置文件
hdfs-site.xml:HDFS核心配置文件
这些文件均存放在$HADOOP_HOME/etc/hadoop文件夹中。

配置workers:

vim etc/hadoop/workers

修改:

# 配置从节点DataNode
node1
node2
node3

配置hadoop-env.sh:

vim etc/hadoop/hadoop-env.sh 

在文件最下面追加配置:

# Supplemental options for privileged registry DNS
# By default, Hadoop uses jsvc which needs to know to launch a
# server jvm.
# export HADOOP_REGISTRYDNS_SECURE_EXTRA_OPTS="-jvm server"# 配置hadoop相关环境变量
export JAVA_HOME=/usr/local/apps/jdk # java环境路径
export HADOOP_HOME=/usr/local/apps/hadoop # hadoop安装路径
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop # hadoop配置文件路径
export HADOOP_LOG_DIR=$HADOOP_HOME/logs # 指明hadoop运行日志路径

配置core-site.xml:

vim etc/hadoop/core-site.xml

修改:

<!-- 设置默认的文件系统,此配置指定了HDFS Namenode的服务地址和端口,在本例中,Namenode运行在名为node1的服务器的8020端口上。设置Hadoop I/O操作的缓冲区大小,单位是字节。较大的缓冲区可以减少磁盘I/O次数,可能提升文件读写性能,但在某些场景下,过大的缓冲区可能会导致内存使用过高。在本例中,设置为131072字节(即128KiB)。
-->
<configuration><property><name>fs.defaultFS</name><value>hdfs://node1:8020</value></property><property><name>io.file.buffer.size</name><value>131072</value></property>
</configuration>

配置hdfs-site.xml:

vim etc/hadoop/hdfs-site.xml
<configuration><property><name>dfs.datanode.data.dir.perm</name><value>700</value></property><property><name>dfs.namenode.name.dir</name><value>/data/nn</value></property><property><name>dfs.namenode.hosts</name><value>node1,node2,node3</v

http://www.ppmy.cn/news/1399829.html

相关文章

elasticsearch 8.12+kibana 8.12

准备工作&#xff1a;1.下载相关的安装包放到/usr/local/ES下面 elasticsearch下载地址:Download Elasticsearch | Elastic elasticsearch-head-master下载地址:https://github.com/mobz/elasticsearch-head/archive/master.zip node下载地址:Index of /dist/ kibana地址:Downl…

自动化更新包文件--shell脚本

自动化更新包文件--shell脚本 背景手动更包自动化更包 背景 作为一名实施工程师&#xff0c;当然也协助做些测试的工作&#xff0c;当产品功能开发后&#xff0c;研发会将本次迭代涉及的前后端包文件提供过来。有时会因为一些原因研发没法现场开发&#xff0c;那就需要我们配合…

【热门话题】Yarn:新一代JavaScript包管理器的安装与使用

&#x1f308;个人主页: 鑫宝Code &#x1f525;热门专栏: 闲话杂谈&#xff5c; 炫酷HTML | JavaScript基础 ​&#x1f4ab;个人格言: "如无必要&#xff0c;勿增实体" 文章目录 Yarn&#xff1a;新一代JavaScript包管理器的安装与使用引言一、Yarn的安装1. 系…

将没有时区的时间序列设置到某个特定的时区

【小白从小学Python、C、Java】 【计算机等考500强证书考研】 【Python-数据分析】 将没有时区的时间序列 设置到某个特定的时区 Series.dt.tz_localize() 选择题 以下代码的输出结果中正确的是? import pandas as pd ts pd.Series(pd.date_range("2024-03-29 10:00&q…

大数据组件有哪些?构建现代数据生态系统的组件一览

随着数字时代的来临&#xff0c;大数据技术成为了企业获取、存储、处理和分析海量数据的关键工具。大数据组件构建了一个庞大而强大的数据生态系统&#xff0c;为企业提供了更深入的洞察和更智能的决策支持。本文将深入解析一些重要的大数据组件&#xff0c;揭示它们在现代数据…

一些常见的zookeeper问题和答案

什么是 Zookeeper ZooKeeper是一个开源的分布式协调服务&#xff0c;它提供了高可用性、高性能和一致性的分布式数据管理功能。 ZooKeeper可以用于构建分布式系统中的共享配置、命名服务、分布式锁、分布式队列等功能。 ZooKeeper的节点类型包括&#xff1a; 持久节点&#…

Docker从入门到放弃

看完我这里&#xff0c;就彻底入门了&#xff0c;如果对你有帮助&#xff0c;欢迎点赞收藏❤️评论噢&#xff5e; 按部就班&#xff0c;先安装.. 安装Docker 在CentOS 7上安装Docker主要涉及添加Docker的官方仓库&#xff0c;然后从该仓库安装Docker CE&#xff08;社区版&a…

【案例·增】获取当前时间、日期(含,SQL中DATE数据类型)

问题描述&#xff1a; 需要使用当前时间、日期&#xff0c;可以使用 SQL 中的 CURDATE() 、NOW()、CURTIME()运算符 案例&#xff1a; INSERT INTO table_name(current_time, column_name2,...) VALUES (NOW(),, ...)规则(Date 相关函数)&#xff1a; 规则(Date数据类型)