Spark on YARN

ops/2024/9/23 11:20:16/

Apache Spark 和 Apache Hadoop YARN 是两个紧密相关的项目,它们经常一起使用来处理大规模数据集。下面我将解释 Spark 如何与 YARN 配合工作,以及如何在 YARN 上运行 Spark 应用程序

Apache Spark

Apache Spark 是一个快速通用的大规模数据处理引擎,支持多种计算模式,如批处理、流处理、机器学习和图形处理。Spark 提供了一个统一的编程模型,可以在单个集群上运行各种类型的应用程序。

Apache Hadoop YARN

Apache Hadoop YARN (Yet Another Resource Negotiator) 是 Hadoop 的资源管理系统,它负责管理和调度集群上的资源(如 CPU、内存)。YARN 使 Hadoop 能够支持多种计算框架,而不仅仅是 MapReduce

Spark on YARN

Spark 可以在 YARN 上运行,这允许 Spark 应用程序利用 YARN 的资源管理和调度能力。以下是 Spark 在 YARN 上运行的一般流程:

  1. 提交 Spark 应用程序:

    • 使用 spark-submit 命令提交 Spark 应用程序到 YARN。
    • spark-submit 命令可以指定 --master yarn 来指示 Spark 应用程序将在 YARN 上运行。
  2. YARN 资源管理:

    • ResourceManager (RM) 负责接收应用程序提交请求,并将应用程序分配给可用的 NodeManagers (NMs)。
    • ResourceManager 通过 ApplicationMaster (AM) 来管理 Spark 应用程序的生命周期。
  3. ApplicationMaster (AM):

    • AM 是 Spark 应用程序在 YARN 上的一个代理,负责向 ResourceManager 请求资源,并协调 Executor 的启动和关闭。
    • AM 还负责监控 Executor 的状态,并向 ResourceManager 报告故障。
  4. Executor 启动:

    • AM 会向 ResourceManager 请求资源来启动 Executor。
    • Executor 是 Spark 应用程序的工作单元,负责执行任务并在本地缓存数据。
  5. 任务调度和执行:

    • Spark 的 Driver Program 通过 AM 与 Executor 通信,发送任务并收集结果。
    • Executor 执行任务并将结果返回给 Driver Program。

示例:提交 Spark 应用程序到 YARN

要将 Spark 应用程序提交到 YARN,可以使用 spark-submit 命令,并指定一些必要的参数,例如:

深色版本

1spark-submit \
2  --master yarn \
3  --deploy-mode cluster \
4  --class com.example.MySparkApp \
5  --conf spark.yarn.appMasterEnv.SPARK_HOME=/path/to/spark \
6  --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=/path/to/python \
7  --num-executors 10 \
8  --executor-memory 1g \
9  --executor-cores 2 \
10  --driver-memory 1g \
11  /path/to/app.jar

这里的关键参数包括:

  • --master yarn: 指定使用 YARN 作为集群管理器。
  • --deploy-mode cluster: 指定以集群模式部署,这意味着 Driver Program 也会在集群中运行。
  • --class: 指定应用程序的主类。
  • --conf: 设置环境变量或其他配置。
  • --num-executors: 指定 Executor 的数量。
  • --executor-memory: 指定每个 Executor 的内存大小。
  • --executor-cores: 指定每个 Executor 的 CPU 核心数。
  • --driver-memory: 指定 Driver Program 的内存大小。

总结

Spark 在 YARN 上运行是一种常见的部署方式,特别是在企业环境中。这种方式充分利用了 YARN 的资源管理和调度能力,同时让 Spark 应用程序能够高效地运行在 Hadoop 集群上。如果你需要进一步的帮助或有关于具体配置的问题,请随时提问!


http://www.ppmy.cn/ops/103577.html

相关文章

ubuntu24安装cuda和cudnn

一、安装cuda 确保显卡驱动正确安装 终端输入: nvidia-smi显示下面结果,说明显卡驱动安装正常,可以进行下一步 1.去官网下载CUDA,需要注册账号下载 https://developer.nvidia.com/cuda-toolkit-archive由于我们显卡支持12.2&…

深度学习基础--梯度下降与初始化

在神经网络的背景下,它们用于寻找能够最小化损失函数的参数,使模型能够根据输入准确预测训练数据的输出。基本方法是随机选择一组初始参数,然后逐步进行微小调整,平均而言这些调整会降低损失。每一次的调整都是基于当前参数位置对…

前端面试题-Vite的打包速度为什么比Webpack快?

哈喽小伙伴们大家好!今天继续为大家分享一道面试题 大家都知道,Vite和Webpack是前端开发中用来构建项目的两个框架,Webpack是针对Vue2的,而Vite则是为vue3量身定制的,他们有哪些区别呢?为什么我们推荐使用Vite呢?Webpack又有哪些缺点呢?这篇文章我们来一探究竟。 Vite和We…

STM32 - LED流水灯

主要功能:两个OLED的闪烁(PE5和PB5),间隔500ms。 可以继续增加更多的OLED灯。 下面为主要代码main.c: #include "stm32f10x.h" // Device header #include "Delay.h" int mai…

波导阵列天线学习笔记6 用于K和Ka频段卫星通信的超宽带双圆极化波导阵列天线

摘要: 在本文中,设计了一种用于K和Ka双频段的宽带双圆极化波导天线阵列。一种多级方波导结构被利用(exploited)在辐射层内来实现双极化响应的激励。一种脊波导极化器被集成在内来实现左旋圆极化和右旋圆极化。为了馈网的更好设计,…

K8S Service

K8S知识目录 Kubernetes(通常简写为K8s)中的Service是一种核心资源对象,它用于将一组Pod(容器组)抽象为一个单一的服务,使得这些Pod能够对外提供稳定的服务入口。 一、作用 提供稳定的网络终点&#xff…

Redis 入门到精通1

一、String(字符串) 特点: 最基本的数据类型,二进制安全,可以存储任何数据,比如图片或者序列化的对象。一个 key 对应一个 value。 常用命令及示例: SET key value:设置一个键值对。…

WHAT - 通过 react-use 源码学习 React(Lifecycles 篇)

目录 一、官方介绍1. Sensors2. UI3. Animations4. Side-Effects5. Lifecycles6. State7. Miscellaneous 二、源码学习示例:n. xx - yyLifecycles - useEffectOnceLifecycles - useEventLifecycles - useLifecyclesLifecycles - useMountedState & useUnmountPr…