PySpark--spark local 的环境部署

news/2024/9/23 4:23:11/

Spark环境搭建-Local

环境搭建

在这里插入图片描述

基本原理

本质:启动一个JVM Process进程(一个进程里面有多个线程),执行任务Task

  • Local模式可以限制模拟Spark集群环境的线程数量, 即Local[N] 或 Local[*]
  • 其中N代表可以使用N个线程,每个线程拥有一个cpu core。如果不指定N,则默认是1个线程(该线程有1个core)。 通常Cpu有几个Core,就指定几个线程,最大化利用计算能力.
  • 如果是local[*],则代表 Run Spark locally with as many worker threads as
    logical cores on your machine.按照Cpu最多的Cores设置线程数

在这里插入图片描述

Local 下的角色分布:

  • 资源管理:

Master:Local进程本身
Worker:Local进程本身

  • 任务执行:

Driver:Local进程本身
Executor:不存在,没有独立的Executor角色, 由Local进程(也就是Driver)内的线程提供计算能力

PS: Driver也算一种特殊的Executor, 只不过多数时候, 我们将Executor当做纯Worker对待, 这样和Driver好区分(一类是管理 一类是工人)

注意: Local模式只能运行一个Spark程序, 如果执行多个Spark程序, 那就是由多个相互独立的Local进程在执行

spark-3.2.0-bin-hadoop3.2.tgz下载地址
https://dlcdn.apache.org/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz

配置环境:
在这里插入图片描述

搭建操作, 可参考资料提供的部署文档:
https://gitee.com/tianyi6_6/PySpark/blob/master/Spark%E9%83%A8%E7%BD%B2%E6%96%87%E6%A1%A3.md#binspark-submit-pi

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

pyspark/spark-shell/spark-submit 对比
在这里插入图片描述

总结:

Local模式的运行原理?

Local模式就是以一个独立进程配合其内部线程来提供完成Spark运行时环境. Local模式可以通过spark-shell/pyspark/spark-submit等来开启

bin/pyspark是什么程序?

是一个交互式的解释器执行环境,环境启动后就得到了一个Local Spark环境,可以运行Python代码去进行Spark计算,类似Python自带解释器

Spark的4040端口是什么?

Spark的任务在运行后,会在Driver所在机器绑定到4040端口,提供当前任务的监控页面供查看


http://www.ppmy.cn/news/4536.html

相关文章

LeetCode 297. 二叉树的序列化与反序列化

今天早上睡起来刷了这么一道题,二叉树的序列化和反序列化 大概意思就是给你一个二叉树,把他转成一个字符串,中间的自定义规则由你定,再根据这个字符串去还原这个二叉树,这道题的话思路不难,写起来有的细节…

[C++]类和对象【中】

🥁作者: 华丞臧 📕​​​​专栏:【C】 各位读者老爷如果觉得博主写的不错,请诸位多多支持(点赞收藏关注)。如果有错误的地方,欢迎在评论区指出。 推荐一款刷题网站 👉LeetCode 文章目录类的六个…

D.类的继承与派生

D.类的继承与派生 Time Limit: 1000 MSMemory Limit: 32768 KTotal Submit: 26 (17 users)Total Accepted: 17 (17 users)Special Judge: NoDescription某工厂需要打造某种球形零件,在尝试的过程中使用了不同的金属,要求根据产品的尺寸信息和所用金属的密…

【多目标优化求解】基于matlab粘菌算法MOSMA求解多目标优化问题【含Matlab源码 2279期】

⛄一、获取代码方式 获取代码方式1: 完整代码已上传我的资源:【多目标优化求解】基于matlab粘菌算法MOSMA求解多目标优化问题【含Matlab源码 2279期】 点击上面蓝色字体,直接付费下载,即可。 获取代码方式2: 付费专栏优化求解(Matlab) 备注: 点击上面蓝色字体付费专…

Android 12 init(6) Subcontext进程工作过程分析

文章托管在gitee上 Android Notes , 同步csdn 本文基于Android12 分析 概述 在init启动过程中,会启动一个subcontext进程,通常与init有着不一样的 secontext 以及 mount namespace。该进程用来接收来自init的命令,用来执行某些操作&#xff…

基于 Spring Cloud 的微服务脚手架

基于 Spring Cloud 的微服务脚手架 作者: Grey 原文地址: 博客园:基于 Spring Cloud 的微服务脚手架 CSDN:基于 Spring Cloud 的微服务脚手架 本文主要介绍了基于 Spring Cloud Finchley 和 Spring Boot 2.0.x 版本的微服务脚…

皮带撕裂检测系统 yolo深度学习模型

皮带撕裂检测系统通过Python基于YOLOv7网络机器学习架构模型,对现场皮带撕裂实时分析检测。我们使用YOLO(你只看一次)算法进行对象检测。YOLO是一个聪明的卷积神经网络(CNN),用于实时进行目标检测。该算法将单个神经网络应用于完整的图像,然后…

【华为OD机试真题2023 JAVA】寻找符合要求的最长子串

华为OD机试真题,2023年度机试题库全覆盖,刷题指南点这里 寻找符合要求的最长子串 知识点双指针 时间限制:1s 空间限制:256MB 限定语言:不限 题目描述: 给定一个字符串 s ,找出这样一个子串: 1)该子串中的任意一个字符最多出现2次; 2)该子串不包含指定某个字符; 请…