Spark任务提交流程

server/2025/1/18 19:23:37/

在这里插入图片描述

当包含在application master中的spark-driver启动后,会与资源调度平台交互获取其他执行器资源,并通过反向注册通知对应的node节点启动执行容器。此外,还会根据程序的执行规划生成两个非常重要的东西,一个是根据spark任务执行计划生成n个ADG有向无环图,另一个是根据有向无环图生成对应的task set,也可以统称为stage,ADG和taskset由于宽窄依赖以及程序的复杂度从而导致本就是一对多的关系

在执行器启动并接收了taskset后,就意味着任务开始了跑数阶段,每一个taskset可以视为一个弹性数据集,简称rdd集合,不同的taskset之间以中间文件的方式传递数据,在这个过程中往往需要注意数据key的倾斜情况、task的多少导致的文件数是否合理、写入和写出的效率等,对任务的优化也生效于这些环节

不同的key分布、数据集的分区策略和中间文件生成策略会对shuffer的性能造成直接的影响,但并不是所有的teskset之间数据传递时都会发生shuffer,也有单纯的一对一数据交换。而是否发生shuffer取决于当前taskset数据血缘的宽窄与否,或者是你对rdd分区策略是否有干预,通俗的讲就是两个task set传递数据的key是否需要从新排列

应当注意的是,spark的shuffer分为两个阶段,上一个taskset的结束向文件中写数据的阶段叫做shuffer write,下一个taskset的读取叫做shuffer read,而没有发生shffer的taskset在这个流程中叫做inputdata和outputdata,可以在spark的ui上看到相关的消息

从跑数上总体来说,spark-driver内部是依靠了两个调度器,ADG调度器负责生成可用于执行的stage,而stage的调度与监控则由taskset调度器在负责,在所有的stage执行结束后,AM会通过向资源调度框架申请注销自己,来结束任务


http://www.ppmy.cn/server/159430.html

相关文章

嵌入式入门Day42

C Day5 作业 作业 //main.cpp #include <iostream> #include "mystring.h"using namespace std;int main() {mystring stra("Hello");mystring strb;cin >> strb;cout << strb << endl;strb stra;cout << strb << e…

SQL 基础教程 - SQL SELECT INTO 语句

通过 SQL&#xff0c;您可以从一个表复制信息到另一个表。 SELECT INTO 语句从一个表复制数据&#xff0c;然后把数据插入到另一个新表中。 SQL SELECT INTO 语句 SELECT INTO 语句从一个表复制数据&#xff0c;然后把数据插入到另一个新表中。 注意&#xff1a; MySQL 数据…

【第四课】冒泡排序,快速排序(acwing-785)

目录 冒泡排序 快速排序 死循环问题&#xff1a; 基准元素的选择&#xff1a; 快排代码如下 递归时间复杂度&#xff1a; 空间暴力代码 冒泡排序 因为之前学过冒泡排序&#xff0c;在没接触快速排序算法之前这道题我就用冒泡做了。 #include <iostream> usin…

k8s 集群组件

在 Kubernetes&#xff08;k8s&#xff09;中&#xff0c;以下是一些重要的集群组件&#xff0c;可以通过 kubectl get componentstatuses 命令查看它们的状态&#xff1a; 一、Controller Manager&#xff08;控制器管理器&#xff09; 功能&#xff1a; 负责运行各种控制器…

P10250 下楼梯 题解

传送门 题目大意&#xff1a;走楼梯可以一步走 1 到 3 级&#xff0c;求到 n 级的方案数。 思路&#xff1a;参照斐波那契数列&#xff0c;dp[i]dp[i-1]dp[i-2]dp[i-3]。 AC Code&#xff1a; #include<bits/stdc.h> using namespace std; long long a[60]; int main()…

无人机(Unmanned Aerial Vehicle, UAV)路径规划介绍

无人机&#xff08;Unmanned Aerial Vehicle, UAV&#xff09;是无人驾驶飞行器的简称。凭借其体积小巧、操作简便、生存能力强等诸多优势&#xff0c;无人机在军事、电力巡检、航空航天与科学研究等诸多领域得到了广泛应用。在执行任务时&#xff0c;无人机可搭载多种传感器设…

AWS设计和实现无人机图形显示和控制系统

设计 无人机图形显示和控制系统 涉及多个组件&#xff0c;这些组件组合在一起以确保实时监控和精确控制。 要使用 AWS 实施 无人机图形显示和控制系统&#xff0c;您需要通过云基础设施将实时视频流、遥测监控和远程控制相结合。AWS 提供了 IoT Core、Kinesis 和 Lambda 等强大…

Ubuntu 磁盘修复

Ubuntu 磁盘修复 在 ubuntu 文件系统变成只读模式&#xff0c;该处理呢&#xff1f; 文件系统内部的错误&#xff0c;如索引错误、元数据损坏等&#xff0c;也可能导致系统进入只读状态。磁盘坏道或硬件故障也可能引发文件系统只读的问题。/etc/fstab配置错误&#xff0c;可能…