大数据学习(32)-spark基础总结

news/2025/1/11 5:33:26/

&&大数据学习&&

🔥系列专栏: 👑哲学语录: 承认自己的无知,乃是开启智慧的大门
💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞


Spark提供多种运行模式:

1.本地模式(单机)
本地模式就是以一个 独立的进程 ,通过其内部的 多个线程来模拟 整个Spark运行时环境
2.Standalone模式(集群)
Spark中的各个角色以 独立进程 的形式存在,并组成Spark集群环境
3.Hadoop YARN模式(集群)
Spark中的各个角色 运行在 YARN 的容器内部 ,并组成Spark集群环境
4.Kubernetes模式(容器集群)
Spark中的各个角色 运行在 Kubernetes 的容器内部 ,并组成Spark集群环境
5.云服务模式(运行在云平台上)

spark运行模式图解:

Spark中由4类角色组成整个Spark的运行时环境
. Master角色,管理整个集群的资源
类比与YARN的ResouceManager
. Worker角色,管理单个服务器的资源
类比于YARN的NodeManager
.Driver角色,管理单个Spark任务在运行的时候的工作
类比YARN日的ApplicationMaster
Executor角色,单个任务运行的时候的一堆工作者,干活的.类比于YARN的容器内运行的TASK
从2个层面划分:资源管理层面:
。管理者: Spark是Master角色,YARN是ResourceManager。工作中: Spark是Worker角色,YARN是NodeManager从任务执行层面:
·某任务管理者: Spark是Driver角色,YARN是ApplicationMaster
·某任务执行者: Spark是Executor角色,YARN是容器中运行的具体工作进程。


Spark On Yarn的本质?
Master角色由YARN的ResourceManager担任.Worker角色由YARN的NodeManager担任.
Driver角色运行在YARN容器内或提交任务的客户端进程中真正干活的Executor运行在YARN提供的容器内。

重点:

Spark On Yarn两种模式:
Client模式和Cluster模式最最本质的区别是:Driver程序运行在哪里。
Client模式:学习测试时使用,生产不推荐(要用也可以,性能略低,稳定性略低)

1.Driver运行在Client上,和集群的通信成本高。
2.Driver输出结果会在客户端显示
Cluster模式:生产环境中使用该模式
1.Driver程序在YARN集群中,和集群的通信成本低

2.Driver输出结果不能在客户端显示
3.该模式下Driver运行ApplicattionMaster这个节点上,由Yarn管理,如果出现问题,yarn会重启ApplicattionMaster(Driver)

所以在spark on yarn中提高资源利用率,在已有YARN的场景下让Spark收到YARN的调度可以更好的管控资源提高利用率并方便管理。

 


http://www.ppmy.cn/news/1562161.html

相关文章

栈与队列OJ题精选,数据结构的实践应用

系列文章目录 🎈 🎈 我的CSDN主页:OTWOL的主页,欢迎!!!👋🏼👋🏼 🎉🎉我的C语言初阶合集:C语言初阶合集,希望能…

【爬虫】单个网站链接爬取文献数据:标题、摘要、作者等信息

源码链接: https://github.com/Niceeggplant/Single—Site-Crawler.git 一、项目概述 从指定网页中提取文章关键信息的工具。通过输入文章的 URL,程序将自动抓取网页内容 二、技术选型与原理 requests 库:这是 Python 中用于发送 HTTP 请求…

Git 的引用规格(refspec)语法

目录 引用规格语法格式常见用法强制 -f 和 的区别git fetch origin remote-branch:local-branch 和 git push origin local-branch:remote-branch 区别 引用规格语法格式 格式如下&#xff1a;[]<src>:<dst> 常见用法 # fetch git fetch origin <remote-bra…

【linux系统】mysql 数据库迁移至新服务器

文章目录 前言一、新服务器停止数据库服务&#x1f6d1;二、旧服务器打包数据库的data目录&#x1f9f3;三、进入新服务器中打包整个数据库的 data 目录&#xff08;备份&#xff09;四、在新服务器中解压旧服务器打包数据库的 data 目录到数据库data 目录中五、修改新数据库 m…

如何在 Ubuntu 24.04 上安装 Memcached 服务器教程

简介 Memcached 是一个高性能、分布式的内存缓存系统&#xff0c;旨在通过减少数据库负载来加速动态 Web 应用程序。它通过将数据和对象缓存在 RAM 中来实现这一点&#xff0c;从而最大限度地减少了从数据库或其他慢速存储层重复获取数据的需要。 本教程的目标是手把手教你如…

电压控制环与电流控制环

电压控制环和电流控制环是电力电子系统和电机控制中常见的两种控制策略。 一、电压控制环与电流控制环的比较 电压控制环&#xff1a; 特点&#xff1a;电压控制环通常用于稳压应用&#xff0c;通过调整输出电压以维持其稳定在设定值。由于电压是二阶系统&#xff0c;具有滞后…

Kafka核心参数与使用02

一、从基础的客户端说起 Kafka 提供了非常简单的生产者&#xff08;Producer&#xff09;和消费者&#xff08;Consumer&#xff09;API。通过引入相应依赖后&#xff0c;可以快速上手编写生产者和消费者的示例。 1. 消息发送者主流程 一个最基础的 Producer 发送消息的步骤…

【每日学点鸿蒙知识】跳转三方地图、getStringSync性能、键盘避让模式等

1、跳转三方地图导航页 类似于Android 跳转到地图APP 导航页面&#xff1a; // 目标地点的经纬度和名称 double destinationLat 36.547901; double destinationLon 104.258354; String destinationName "目的地名称"; // 构建URI Uri uri Uri.parse("…