一、安装spark
1、将spark-2.1.2-bin-hadoop2.6.tgz使用WinSCP上传到/usr/local目录下。
2、解压缩spark包:tar zxvf spark-2.1.2-bin-hadoop2.6.tgz。
3、更改spark目录名:mv spark-2.1.2-bin-hadoop2.6 spark
4、设置spark环境变量
vi .bashrc
export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=node10:2181,node11:2181,node12:2181"
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
source .bashrc
二、配置spark集群
1、cd /usr/local/spark/conf
2、cp spark-env.sh.template spark-env.sh
2、cp slaves.template slaves
3、vi spark-env.sh
export JAVA_HOME=/usr/java/latest
export SCALA_HOME=/usr/local/scala
####使用zookeeper需要注释掉这一行
#export SPARK_MASTER_IP=node1
export SPARK_WORKER_MEMORY=512m
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
4、修改slaves文件
node1
node2
node3
5、配置spark-shell日志
/usr/local/spark/conf/log4j.properties:
log4j.logger.org.apache.spark.repl.Main=INFO
三、启动Spark集群
# 需要在各节点上首先启动zookeeper
zkServer.sh start
1、在主节点node1上spark目录下的sbin目录
2、执行./start-all.sh
3、使用jps和8080端口可以检查集群是否启动成功 http://node1:8080/
node1是Master,node1/node2/node3启动Worker进程
4、进入spark-shell查看是否正常