配置高可用(名称节点高可用)

本文详细配置名称节点的高可用，什么是高可用可参考官方文档

说在前面

工作环境：VMware® Workstation 12 Pro 12.5.6 build-5528349
linux版本：CentOS-7-x86_64-Minimal-1611.iso
JDK版本：jdk-8u65-linux-x64.tar.gz
Hadoop版本：hadoop-2.7.6.tar.gz

关于高可用

满足 24 * 365

一年365天不间断运行
满足 99.999% (5个9)

一年最多宕机 365 * 24 * 0.0001 = 1 小时

生产环境介绍

本文配置供需要5台主机，具体情况如下

两个名称节点(s201, s205)

s201：192.168.32.201    //NameNode
s201：192.168.32.205    //NameNode

三个数据节点

s202：192.168.32.202    //DataNode
s203：192.168.32.203    //DataNode
s204：192.168.32.204    //DataNode

详细配置如下

1. 新增数据节点主机(s205)，配置ssh

生成秘钥对，然后将公钥发给其他主机(s201, s202, s203, s204)

$>ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa$>cd ~/.ssh
$>cat id_rsa.pub >> authorized_keys
$>chmod 644 authorized_keys//重命名
$>mv id_rsa.pub id_rsa.pub.s205.0$>scp id_rsa.pub.s205.0 centosmin0@s201:/home/centosmin0/.ssh/authorized_keys
$>scp id_rsa.pub.s205.0 centosmin0@s202:/home/centosmin0/.ssh/authorized_keys
$>scp id_rsa.pub.s205.0 centosmin0@s203:/home/centosmin0/.ssh/authorized_keys
$>scp id_rsa.pub.s205.0 centosmin0@s204:/home/centosmin0/.ssh/authorized_keys

将s201主机的公钥发送给主机s205

$>scp id_rsa.pub centosmin0@s205:/home/centosmin0/.ssh/authorized_keys

2. 配置高可用生产环境

从原生产环境(full)中复制出高可用生产环境(ha):

$> cp -r /soft/hadoop/etc/full ha

将原生产环境(full)的符号链接指向高可用生产环境(ha)：

xcall.sh "ln -sfT /soft/hadoop/etc/ha /soft/hadoop/etc/hadoop"

使用批处理脚本分发给其他主机

3. 配置core-site.xml和hdfs-site.xml文件(s201)

core-site.xml

<!-- 配置hdfs文件系统名称服务 -->
<property><name>fs.defaultFS</name><value>hdfs://mycluster</value>
</property>

hdfs-site.xml

<!-- 配置nameservice -->
<property><name>dfs.nameservices</name><value>mycluster</value>
</property><!-- myucluster下的名称节点两个id -->
<property><name>dfs.ha.namenodes.mycluster</name><value>nn1,nn2</value>
</property><!-- 配置每个nn的rpc地址 -->
<property><name>dfs.namenode.rpc-address.mycluster.nn1</name><value>s201:8020</value>
</property>
<property><name>dfs.namenode.rpc-address.mycluster.nn2</name><value>s205:8020</value>
</property><!-- 配置webui端口 -->
<property><name>dfs.namenode.http-address.mycluster.nn1</name><value>s201:50070</value>
</property>
<property><name>dfs.namenode.http-address.mycluster.nn2</name><value>s205:50070</value>
</property><!-- 名称节点共享编辑目录 -->
<property><name>dfs.namenode.shared.edits.dir</name><value>qjournal://s202:8485;s203:8485;s204:8485/mycluster</value>
</property><!-- java类，client使用它判断哪个节点是激活态 -->
<property><name>dfs.client.failover.proxy.provider.mycluster</name><value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property><!-- 脚本列表或者java类，在容灾情况下保护激活态的nn -->
<property><name>dfs.ha.fencing.methods</name><value>sshfence</value>
</property>
<property><name>dfs.ha.fencing.ssh.private-key-files</name><value>/home/centosmin0/.ssh/id_rsa</value>
</property><!-- 配置JN存放edit的本地路径 -->
<property><name>dfs.journalnode.edits.dir</name><value>/home/centosmin0/hadoop/journal</value>
</property>

将文件呢分发给其他主机(s202, s203, s204, s205, s206)

4. 部署细节

在jn节点(每个数据节点就素一个jn节点)启动jn进程(s202, s203, s204)

$>hadoop-daemon.sh start journalnode

启动jn之后，在两个NN(名称节点)之间进行disk元数据同步
1. 如果是全新集群，先format文件系统,只需要在一个nn上执行
```
[s201]
$>hadoop namenode -format
```
1. 如果将非HA集群转换成HA集群，复制原NN的metadata到另一个NN
  
  步骤一：清除原来的dfs
  [s201]
```
$>scp -r /home/centos/hadoop/dfs centos@s206:/home/centos/hadoop/
```
  步骤二：在新的NN(未格式化的NN)上运行以下命令(s205)，实现待命状态引导(注意：需要启动s201的名称节点，提示是否格式化,选择N)
```
```$>hdfs namenode -bootstrapStandby```![image](http://pcx55bat1.bkt.clouddn.com/ha2.png)
```
步骤三：在一个NN上执行以下命令，完成edit日志到jn节点的传输
```
$>hdfs namenode -initializeSharedEdits
```
```
步骤四：启动所有节点
```
```
     [s201]$>hadoop-daemon.sh start namenode		//启动名称节点$>hadoop-daemons.sh start datanode		//启动所有数据节点[s205]$>hadoop-daemon.sh start namenode		//启动名称节点```
![image](http://pcx55bat1.bkt.clouddn.com/ha3.png)
```
HA管理

$>hdfs haadmin -transitionToActive nn1				//切成激活态
$>hdfs haadmin -transitionToStandby nn1				//切成待命态
$>hdfs haadmin -transitionToActive --forceactive nn2//强行激活
$>hdfs haadmin -failover nn1 nn2					//模拟容灾演示,从nn1切换到nn2

webui下成功状态：
s201：active状态(激活状态)