jdk和hadoop安装包:
hadoop-2.9.2.t......等2个文件官方版下载丨最新版下载丨绿色版下载丨APP下载-123云盘
1、用XFTP发送hadoop安装包和jdk到/home/hadoop/目录下(hadoop用户的主目录)
2、解压jdk安装包到~目录
卸载jdk的命令:rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps
cd /home/hadoop
tar -zxvf /home/hadoop/jdk-8u311-linux-x64.tar.gz
3、配置bashrc
vim ~/.bashrc
export JAVA_HOME=/home/hadoop/jdk1.8.0_311
export JRE_HOME=$JAVA_HOME/jre
export CLASSPATH=$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME
保存后输入source ~/.bashrc
4、继续解压hadoop安装包到~目录
tar –zxvf hadoop-2.9.2.tar.gz
5、配置bashrc
vim .bashrc
export HADOOP_HOME=/home/hadoop/hadoop-2.9.2
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
source .bashrc
6、配置Hadoop配置文件,实现伪分布式;
Hadoop 配置文件很多,都位于 $HADOOP_HOME/etc/hadoop 下。
下面简单的描述一下几个重要的配置文件:
hadoop-env.sh:运行 Hadoop 要用的环境变量。
core-site.xml:核心配置项,包括 HDFS、MapReduce 和 YARN 常用的 I/O 设置等。
hdfs-site.xml:HDFS相关进程的配置项,包括 NameNode、SecondaryNameNode、DataNode等。
yarn-site.xml:YARN 相关进程的配置项,包括 ResourceManager、NodeManager 等。
mapred-site.xml:MapReduce 相关进程的配置项。
slaves:从节点配置文件,通常每行 1 个从节点主机名。
log4j.properties:系统日志、NameNode 审计日志、JVM 进程日志的配置项。
Hadoop伪分布式配置:
所有配置文件都在hadoop安装目录下的/etc/hadoop/里,所以先cd进去:
1.vim ./hadoop-env.sh
设置一项java安装目录即可:
export JAVA_HOME=/home/hadoop/jdk1.8.0_311
2.vim ./core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name><value>hdfs://master:9000</value>
<!--配置hdfs NameNode的地址,9000是RPC通信的端口-->
</property>
<property><name>hadoop.tmp.dir</name><value>/home/hadoop/data/tmp</value>
<!--hadoop运行时产生的临时文件的存放目录-->
</property>
</configuration>
3.vim hdfs-site.xml
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/hadoop/data/dfs/name</value>
<!--配置namenode节点存储fsimage的目录位置-->
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hadoop/data/dfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
<!--配置hdfs副本数量-->
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
<!--关闭hdfs的权限检查-->
</property>
<!--配置datanode 节点存储block的目录位置-->
</configuration>
4. vim mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
<!--指定运行mapreduce的环境为YARN-->
</property>
</configuration>
5.vim yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
<!--配置NodeManager执行MapReduce任务的方式为Shuffle混洗-->
</property>
</configuration>
6.vim slaves
该文件主要配置datanode角色的主机,目前我们属于伪分布式,因此只填写本机作为从节点即可
改为:master
7.创建三个用来存放文件
mkdir -p /home/hadoop/data/tmp
mkdir -p /home/hadoop/data/dfs/name
mkdir -p /home/hadoop/data/dfs/data
8. 启动Hadoop伪分布式集群并测试:
(1)格式化NameNode
hdfs namenode -format
(2)启动集群
start-all.sh
查看进程
jps
查看HDFS
浏览器输入网址:http://master:50070/查看YARN
浏览器输入网址:http://master:8088/测试集群:见课本