Linux的Spark 环境部署

news/2024/10/21 3:43:58/

前言:需自行准备hadoop集群

1. Spark 是一款分布式内存计算引擎, 可以支撑海量数据的分布式计算。 Spark 在大数据体系是明星产品, 作为最新一代的综合计算引擎, 支持离线计算和实 时计算。 在大数据领域广泛应用, 是目前世界上使用最多的大数据分布式计算引擎。 我们将基于前面构建的 Hadoop 集群, 部署 Spark Standalone 集群。

2.安装

spark镜像安装icon-default.png?t=O83Ahttps://mirrors.aliyun.com/apache/spark/spark-3.5.3/?spm=a2c6h.25603864.0.0.12d22104b1PXSX

3.解压:   命令: tar -zxvf spark-3.5.3-bin-hadoop3.tgz -C /export/server/

4.创建软连接  命令:  ln -s /export/server/spark-3.5.3-bin-hadoop3 /export/server/spark

5.改名

命令:   cd /export/server/spark/conf
    mv spark-env.sh.template spark-env.sh
     mv workers.template workers

6.修改配置文件, spark-env.sh

加入:

JAVA_HOME=/export/server/jdk
HADOOP_CONF_DIR=/export/server/hadoop/etc/hadoop
YARN_CONF_DIR=/export/server/hadoop/etc/hadoop
export SPARK_MASTER_HOST=wtk
export SPARK_MASTER_PORT=7077
SPARK_MASTER_WEBUI_PORT=8080
SPARK_WORKER_CORES=1
SPARK_WORKER_MEMORY=1g

7.修改配置文件,workers

清空加入:

各个主机名

8.分发到各个主机

    命令  scp -r /export/server/spark-3.5.3-bin-hadoop3 wtk1:/export/server/

部分文件:

9.给分配主机创建软连接

命令:   ln -s /export/server/spark-3.5.3-bin-hadoop3 /export/server/spark

10.启动spark

命令:   /export/server/spark/sbin/start-all.sh

11.验证:

 打开spark监控页面

     主机ip:8081

     我的是192.168.10.130:8081

提交测试任务:(执行以下脚本,主机名自行修改):

/export/server/spark/bin/spark-submit --master spark://wtk:7077 --class org.apache.spark.examples.SparkPi /export/server/spark-3.5.3-bin-hadoop3/examples/jars/spark-examples_2.12-3.5.3.jar  examples_2.11-2.4.5.jark

网页刷新,发现脚本已经执行完毕

此时显示应用程序完成

这就是spark的安装部署了


http://www.ppmy.cn/news/1540684.html

相关文章

linux 环境运行 jenkins.war包,有可能会出现字体问题,jdk版本:11 jenkins 版本:2.420

jenkins的目录: /usr/jenkins 启动命令 java -Djava.awt.headlesstrue sudo timedatectl set-timezone Asia/Shanghai-Xmx1024m -jar jenkins.war --httpPort8090 任意目录启动: nohup java -Djava.awt.headlesstrue -Xms1024m -Xmx1024m -jar /usr/j…

Python知识点:基于Python工具,如何使用Stellar SDK进行金融应用开发

开篇,先说一个好消息,截止到2025年1月1日前,翻到文末找到我,赠送定制版的开题报告和任务书,先到先得!过期不候! 如何使用Stellar SDK for Python进行金融应用开发 在金融科技领域,区…

大数据学习---快速了解clickhouse数据库

ClickHouse数据库介绍 ClickHouse是一款由Yandex开发的列式数据库管理系统(DBMS),适用于在线分析处理(OLAP)场景。它具有高性能、可扩展性、实时更新等特点,适用于处理大规模数据。 特点 列式存储&#x…

监控易监测对象及指标之:Microsoft Message Queue(MSMQ)监控

监控易是一款强大的监控工具,能够实时监控各类IT设施和应用程序的性能指标。对于Microsoft Message Queue(简称MSMQ)的监控,监控易提供了详尽的指标,以确保企业能够准确掌握消息队列的运行状况。 在MSMQ的监控中&#…

jquery实现点击菜单实现高德地图定位点与数据展示联动效果

🍊jquery实现点击菜单实现高德地图定位点与数据展示联动效果 版本介绍: jQuery v3.7.1高德地图JS API 2.0 代码仓库 ⭐ Gitee:实现点击菜单实现高德地图定位点与数据展示联动效果 1.启动说明 📔 推荐VS Code编辑器插件Live Ser…

SDUT数据结构与算法第四次机测

7-1 统计工龄 给定公司 n 名员工的工龄,要求按工龄增序输出每个工龄段有多少员工。 输入格式: 输入首先给出正整数 n(≤105),即员工总人数;随后给出 n 个整数,即每个员工的工龄,范围在 [0, 5…

解决一个android service启动无法开文件的问题

问题描述 android hal层一般是通过service给系统提供服务的。一般需要将service配置为开机启动。调试阶段,我直接将service push到板卡上,进行调试,未出现问题无法开的问题。在最后集成完成后,放到板卡上,出现启动无法…

VMware虚拟机三种网络模式详解

主要内容 1. 桥接模式2. NAT模式VMware Network Adapter VMnet8虚拟网卡的作用 3. 仅主机模式VMware Network Adapter VMnet1虚拟网卡的作用设置虚拟机联通外网 4. 总结 参考资料: 1.Vmware虚拟机三种网络模式详解 VMware虚拟机三种网络模式详解之Bridged&#xff0…