spark 性能调优 (一):执行计划

server/2025/2/7 16:49:44/

在 Spark 中,explain 函数用于提供数据框(DataFrame)或 SQL 查询的逻辑计划和物理执行计划的详细解释。它可以帮助开发者理解 Spark 是如何执行查询的,包括优化过程、转换步骤以及它将采用的物理执行策略。

1. 逻辑计划 (Logical Plan)

逻辑计划代表了 Spark 将应用于处理数据的抽象操作序列。它是基于用户提供的 DataFrame API 或 SQL 查询,经过优化前的中间表示。

  • 未优化的逻辑计划:这是查询的初始形式,尚未应用任何优化。
  • 优化后的逻辑计划:这是经过 Spark 应用了一些规则(如谓词下推、常量折叠、简化等)后的查询计划。

2. 物理计划 (Physical Plan)

物理计划表示 Spark 如何实际执行查询。它包括如何对数据进行 Shuffle(洗牌)、分区或合并的详细信息。物理计划通常有多个选择,Spark 会根据成本(如计算开销、数据传输等)选择最优的执行计划。

  • RDD(弹性分布式数据集)操作:物理计划会显示 Spark 执行数据处理时所使用的具体转换步骤和操作。

3. 基于成本的优化 (Cost-Based Optimization)

在某些情况下,Spark 还可以执行基于成本的优化(如选择不同的连接策略或决定是否执行广播连接),具体取决于可用的统计信息。

4. 使用示例

4.1 PySpark 示例:

df = spark.read.csv("data.csv", header=True, inferSchema=True)# 执行一些转换操作
df_filtered = df.filter(df["age"] > 25).select("name", "age")# 输出查询执行计划
df_filtered.explain(True)

4.2 Spark SQL 示例:

# 使用 SQL 执行查询
spark.sql("SELECT name, age FROM people WHERE age > 25").explain(True)

输出 explain(True) 的结果:

当调用 explain(True) 时,您会看到一个包含 逻辑计划物理计划 的详细输出。以下是一个简单的输出示例:

== Physical Plan ==
*Project [name#0, age#1]
+- *Filter (age#1 > 25)+- *Scan ExistingRDD[name#0, age#1] Batched: false, Format: CSV, Location: InMemoryFileIndex[file:/data.csv], PartitionFilters: [], PushedFilters: [GreaterThan(age,25)], ReadSchema: struct<name:string,age:int>== Logical Plan ==
Project [name#0, age#1]
+- Filter (age#1 > 25)+- Relation[name#0, age#1] csv

输出内容的关键元素:

  1. 物理计划
    • Project:表示选取了哪些列。
    • Filter:表示应用的过滤条件。
    • Scan ExistingRDD:表示数据的读取来源,在这个例子中是 CSV 文件。
  2. 逻辑计划
    • 逻辑计划中显示了用户代码中定义的 ProjectFilter 操作。

使用 explain 的场景:

  • 优化调试:可以使用 explain 来检查 Spark 是否正确优化了查询。
  • 连接优化:如果您不确定 Spark 如何处理连接,explain 可以帮助您查看 Spark 是否使用了合适的连接策略(例如,广播连接或 Shuffle 连接)。
  • 性能调优:通过检查物理计划,您可以识别出 Spark 可能执行的无谓操作,或者有机会进一步优化的地方。

5. 详细语法

EXPLAIN [ EXTENDED | CODEGEN | COST | FORMATTED ] statement

EXTENDED
生成解析后的逻辑计划、分析后的逻辑计划、优化后的逻辑计划和物理计划。
解析后的逻辑计划是从查询中提取的未解析计划。
分析后的逻辑计划通过将未解析的属性(unresolvedAttribute)和未解析的关系(unresolvedRelation)转换为完全类型化的对象来完成转换。
优化后的逻辑计划通过一组优化规则进行转换,最终生成物理计划。

CODEGEN
生成语句的代码(如果有)和物理计划。

COST
如果计划节点的统计信息可用,生成逻辑计划和统计信息。

FORMATTED
生成两个部分:物理计划概述和节点详细信息。

statement
指定要解释的SQL语句。

-- Default Output
EXPLAIN select k, sum(v) from values (1, 2), (1, 3) t(k, v) group by k;
+----------------------------------------------------+
|                                                plan|
+----------------------------------------------------+
| == Physical Plan ==*(2) HashAggregate(keys=[k#33], functions=[sum(cast(v#34 as bigint))])+- Exchange hashpartitioning(k#33, 200), true, [id=#59]+- *(1) HashAggregate(keys=[k#33], functions=[partial_sum(cast(v#34 as bigint))])+- *(1) LocalTableScan [k#33, v#34]
|
+------------------------------------------------------ Using Extended
EXPLAIN EXTENDED select k, sum(v) from values (1, 2), (1, 3) t(k, v) group by k;
+----------------------------------------------------+
|                                                plan|
+----------------------------------------------------+
| == Parsed Logical Plan =='Aggregate ['k], ['k, unresolvedalias('sum('v), None)]+- 'SubqueryAlias `t`+- 'UnresolvedInlineTable [k, v], [List(1, 2), List(1, 3)]== Analyzed Logical Plan ==k: int, sum(v): bigintAggregate [k#47], [k#47, sum(cast(v#48 as bigint)) AS sum(v)#50L]+- SubqueryAlias `t`+- LocalRelation [k#47, v#48]== Optimized Logical Plan ==Aggregate [k#47], [k#47, sum(cast(v#48 as bigint)) AS sum(v)#50L]+- LocalRelation [k#47, v#48]== Physical Plan ==*(2) HashAggregate(keys=[k#47], functions=[sum(cast(v#48 as bigint))], output=[k#47, sum(v)#50L])
+- Exchange hashpartitioning(k#47, 200), true, [id=#79]+- *(1) HashAggregate(keys=[k#47], functions=[partial_sum(cast(v#48 as bigint))], output=[k#47, sum#52L])+- *(1) LocalTableScan [k#47, v#48]
|
+----------------------------------------------------+-- Using Formatted
EXPLAIN FORMATTED select k, sum(v) from values (1, 2), (1, 3) t(k, v) group by k;
+----------------------------------------------------+
|                                                plan|
+----------------------------------------------------+
| == Physical Plan ==* HashAggregate (4)+- Exchange (3)+- * HashAggregate (2)+- * LocalTableScan (1)(1) LocalTableScan [codegen id : 1]Output: [k#19, v#20](2) HashAggregate [codegen id : 1]Input: [k#19, v#20](3) ExchangeInput: [k#19, sum#24L](4) HashAggregate [codegen id : 2]Input: [k#19, sum#24L]

http://www.ppmy.cn/server/165709.html

相关文章

微信小程序获取openid和其他接口同时并发请求如何保证先获取到openid

在微信小程序中,如果你需要并发请求获取 openid 和其他接口的数据,并且希望确保先获取到 openid 之后再进行后续操作,可以考虑以下几种方法: 方法一:使用 Promise 链 1, 先请求 openid:使用 Promise 来请求 openid。 2, 在获取到 openid 后再请求其他接口。 function g…

WSL2中安装的ubuntu搭建tftp服务器uboot通过tftp下载

Windows中安装wsl2&#xff0c;wsl2里安装ubuntu。 1. Wsl启动后 1&#xff09;Windows下ip ipconfig 以太网适配器 vEthernet (WSL (Hyper-V firewall)): 连接特定的 DNS 后缀 . . . . . . . : IPv4 地址 . . . . . . . . . . . . : 172.19.32.1 子网掩码 . . . . . . . .…

如何在 Typecho 中实现 Joe 编辑器标签自动填充

如何在 Typecho 中实现 Joe 编辑器标签自动填充 在 Typecho 的文章编辑过程中&#xff0c;如果你使用 Joe 编辑器&#xff0c;可能会希望输入#标签后能自动提取并填充到文章的标签输入框中&#xff0c;以提高工作效率。接下来&#xff0c;我们将详细介绍如何通过开发一个 Type…

Windows图形界面(GUI)-QT-C/C++ - Qt QSpinBox

公开视频 -> 链接点击跳转公开课程博客首页 -> ​​​链接点击跳转博客主页 目录 一、控件概述 1.1 核心特性 1.2 常用场景 二、核心属性详解 2.1 基本属性配置 2.2 进阶属性说明 三、信号机制与事件处理 3.1 核心信号 3.2 信号对比 四、样式定制与功能扩展 …

记录 | WPF基础学习自定义按钮

目录 前言一、解析Button.TemplateBorder和TemplateBinding 二、代码提供更新时间 前言 参考文章&#xff1a; 参考视频&#xff1a;【WPF入门教程 Visual Studio 2022】WPF界面开发入门 自己的感想 这里涉及到Template模板和事件。主要干两件事&#xff1a;1、template中的重写…

如何安装PHP依赖库 更新2025.2.3

要在PHP项目中安装依赖&#xff0c;首先需要确保你的系统已经安装了Composer。Composer是PHP的依赖管理工具&#xff0c;它允许你声明项目所需的库&#xff0c;并管理它们。以下是如何安装Composer和在PHP项目中安装依赖的步骤&#xff1a; 一. 安装Composer 对于Windows用户…

支持 APQP (先期产品质量策划) 的软件系统-汽车电子行业专用研发管理信息化平台

支持 APQP (先期产品质量策划) 的软件系统 在制造业竞争白热化的当下&#xff0c;产品质量已然成为企业立足市场的核心竞争力。APQP&#xff08;先期产品质量策划&#xff09;作为保障产品质量的关键流程&#xff0c;贯穿于产品从概念萌生到最终交付的整个生命周期&#xff0c…

SQL入门到精通 理论+实战 -- 在 MySQL 中学习SQL语言

目录 一、环境准备 1、MySQL 8.0 和 Navicat 下载安装 2、准备好的表和数据文件&#xff1a; 二、SQL语言简述 1、数据库基础概念 2、什么是SQL 3、SQL的分类 4、SQL通用语法 三、DDL&#xff08;Data Definition Language&#xff09;&#xff1a;数据定义语言 1、操…