spark的安装与部署

news/2025/1/7 22:59:34/

一、安装spark

1、将spark-2.1.2-bin-hadoop2.6.tgz使用WinSCP上传到/usr/local目录下。

2、解压缩spark包:tar zxvf spark-2.1.2-bin-hadoop2.6.tgz。

3、更改spark目录名:mv spark-2.1.2-bin-hadoop2.6 spark

4、设置spark环境变量

vi .bashrc

export SPARK_HOME=/usr/local/spark

export PATH=$PATH:$SPARK_HOME/bin

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=node10:2181,node11:2181,node12:2181"

export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

source .bashrc

二、配置spark集群

1、cd /usr/local/spark/conf

2、cp spark-env.sh.template spark-env.sh

2、cp slaves.template slaves

3、vi spark-env.sh

export JAVA_HOME=/usr/java/latest

export SCALA_HOME=/usr/local/scala

####使用zookeeper需要注释掉这一行

#export SPARK_MASTER_IP=node1

export SPARK_WORKER_MEMORY=512m

export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop

4、修改slaves文件

node1

node2

node3

5、配置spark-shell日志

/usr/local/spark/conf/log4j.properties:

log4j.logger.org.apache.spark.repl.Main=INFO

三、启动Spark集群

# 需要在各节点上首先启动zookeeper

zkServer.sh start

1、在主节点node1上spark目录下的sbin目录

2、执行./start-all.sh

3、使用jps和8080端口可以检查集群是否启动成功 http://node1:8080/

node1是Master,node1/node2/node3启动Worker进程

4、进入spark-shell查看是否正常


http://www.ppmy.cn/news/1561086.html

相关文章

Alist-Sync-Web 网盘自动同步,网盘备份相互备份

Alist-Sync-Web 一个基于 Web 界面的 Alist 存储同步工具,支持多任务管理、定时同步、差异处理等功能。 如果好用,请Star!非常感谢! GitHub Gitee DockerHub 功能特点 📱 美观的 Web 管理界面🔄 支持多任…

SpringCloud源码分析-nacos与eureka

一、高版本为什么优先用nacos 如果用alibaba springcloud,那么就是阿里的技术体系。nacos属于阿里的原生技术栈,所以阿里更偏向于用nacos作为服务发现注册。 二、对比分析 Spring Cloud Alibaba 推荐使用 Nacos 作为服务发现和配置管理的首选组件&…

【有例子代码】Spring框架的设计模式应用(上集)

设计模式在Spring框架中扮演着至关重要的角色。它们不仅帮助开发者解决常见的设计问题,还使得系统更加灵活和易于维护。在实际开发中,合理地应用这些设计模式可以显著提高代码质量和系统的可扩展性。例如,使用单例模式可以避免重复创建对象带…

基于word2vec的文本大数据分析

基于word2vec的文本大数据分析 效果: 一、简介 Word2Vec是一种词向量表示方法,是在自然语言处理领域(NLP)的神经网络模型,是一种无监督学习,包含两种模型架构:CBOW模型与Skip-Gram模型。 常用于:相似度计算、词类聚类、文本分类、句子和文档表示、搜索引擎优化、情…

事务隔离机制(超详细)

学习目标 那什么是事务?事务的四大特性一、原子性二、一致性三、隔离性四、持久性 事务的生命周期一、开始事务二、执行事务操作三、提交事务四、回滚事务五、事务结束 事务的并发控制一、并发控制的基本概念二、并发控制的目标三、并发控制的方法四、并发控制中的其…

大型 UniApp 应用的架构设计

一、引言 在当今数字化时代,移动应用的需求呈现爆发式增长,跨平台开发成为众多企业和开发者的首选策略。UniApp 作为一款极具影响力的跨平台开发框架,凭借 “一次开发,多端运行” 的特性,大幅提升了开发效率&#xff0…

王佩丰24节Excel学习笔记——第二十四讲:宏表函数

【以 Excel2010 系列学习,用 Office LTSC 专业增强版 2021 实践】 【本章技巧】 宏表函数不能直接使用。get.cell(参数一,参数二),参数一要参考类型表。 获得单元格的公式有很多种方法, 如:宏写法:get.cel…

Day 22:数据库与 Spring Data JPA

理论知识 1. 什么是 JPA? Java Persistence API (JPA) 是 Java EE 的规范,用于对象关系映射(ORM)。JPA 将数据库中的表映射为 Java 对象,简化了数据库操作。 优点: 提高开发效率,减少手动 SQ…