spark sql 广播模式参数

news/2024/10/25 13:17:04/

Spark SQL 中,广播(Broadcast)模式常用于处理 Join 操作时的小表与大表的场景,尤其是在小表较小,可以被广播到每个 Executor 时,能够显著提升性能,避免了分布式 Shuffle 的开销。

Spark SQL 自动检测并使用广播模式,但可以通过以下几个参数进行手动控制和调整:

1. spark.sql.autoBroadcastJoinThreshold

该参数用于设置小表的最大大小(以字节为单位),超过该值的表不会被自动广播。默认值通常是 10MB(10485760 字节),可以根据数据量进行调整。设置为 -1 ,关闭广播模式

 

bash复制

--conf spark.sql.autoBroadcastJoinThreshold=104857600 # 100MB

2. spark.sql.broadcastTimeout

广播表的超时时间(以毫秒为单位)。默认是 300 秒(5 分钟),如果小表广播时间过长,可以通过调整该参数来设置更长的超时时间。

 

bash复制

--conf spark.sql.broadcastTimeout=600000 # 10分钟

3. spark.sql.shuffle.partitions

虽然该参数不是专门针对广播的,但它会影响 Join 操作中的分区数,从而间接影响广播的性能。如果你在使用广播时遇到分区数不合理的问题,可以通过调整该参数。

 

bash复制

--conf spark.sql.shuffle.partitions=500 # 默认值为 200

4. spark.sql.adaptive.autoBroadcastJoinThreshold

从 Spark 3.x 开始,引入了自适应执行,该参数允许 Spark 在运行时动态调整广播的阈值。默认情况下,Spark 会根据当前作业的统计信息动态调整。如果你希望关闭自适应广播,可以将该参数设置为 -1

 

bash复制

--conf spark.sql.adaptive.autoBroadcastJoinThreshold=-1 # 关闭自适应广播

5. spark.sql.adaptive.skewedJoin.enabled

如果在使用广播模式时遇到了数据倾斜问题,可以启用自适应倾斜 Join 功能,Spark 会动态地将倾斜的分区重新划分,以避免广播时出现性能瓶颈。

 

bash复制

--conf spark.sql.adaptive.skewedJoin.enabled=true

示例

以下是一个完整的示例,展示了如何在提交 Spark SQL 作业时调整广播相关的参数:

 

bash复制

spark-submit \
--conf spark.sql.autoBroadcastJoinThreshold=104857600 \
--conf spark.sql.broadcastTimeout=600000 \
--conf spark.sql.shuffle.partitions=500 \
--conf spark.sql.adaptive.autoBroadcastJoinThreshold=-1 \
your_application.jar

总结

  • spark.sql.autoBroadcastJoinThreshold:控制小表自动广播的阈值。
  • spark.sql.broadcastTimeout:控制广播的超时时间。
  • spark.sql.shuffle.partitions:影响分区数,从而影响 Join 操作的性能。
  • spark.sql.adaptive.autoBroadcastJoinThreshold:控制自适应执行时广播的阈值。

根据你的数据规模和场景,合理调整这些参数可以帮助优化 Spark SQL 的性能。


http://www.ppmy.cn/news/1541830.html

相关文章

宝塔如何部署Django项目(前后端分离篇)

一、环境安装 1、安装相关软件 点击软件商店,安装下面软件 一、宝塔部署前端 1、打包Vue项目 打开Vue3项目,输入下面打包命令,对Vue项目进行打包, npm run build 2、部署前端 点击宝塔的网站,在PHP项目里点击添加…

短视频账号矩阵系统源码---独立saas技术部署

#短视频账号矩阵系统# #短视频矩阵源码# #短视频账号矩阵系统技术开发# 抖音seo账号矩阵系统,短视频矩阵系统源码, 短视频矩阵是一种常见的视频编码标准,通过多账号一键授权管理的方式,为运营人员打造功能强大及全面的“矩阵式“…

HarmonyOS第一课——HarmonyOS介绍

HarmonyOS第一课 HarmonyOS介绍 HarmonyOS是新一代的智能终端操作系统(泛终端服务的载体); 智慧互联协同,全场景交互体验; 核心技术理念: 一次开发 多次部署: 预览 可视化开发UI适配 事件交…

Django项目创建

安装 pip install django 创建项目 首先打开powershell打开项目与创建到的文件夹 django-admin startproject django_demo01 django-admin startproject 项目名 多出了一个django_demo01的文件夹,这就是我们的项目了 打开项目文件夹,发现一个文件和…

Python使用asyncio实现异步操作

Python使用asyncio实现异步操作 1. 基础概念2. 实现异步 I/O 的步骤2.1 定义异步函数2.2 使用 await 等待异步操作的完成2.3 并发执行多个任务2.4 创建并管理任务2.5 处理异常2.6 超时控制 3. 处理复杂的异步 I/O 操作4. 使用 async/await 的性能优势5. 总结 在 Python 中&…

安全见闻(2)——开阔眼界,不做井底之蛙

内容预览 ≧∀≦ゞ 安全见闻二:Web程序构成与潜在漏洞声明导语前端语言及潜在漏洞前端语言前端框架与代码库代码库的概念和用途流行的JavaScript框架常见的代码库 前端潜在漏洞 后端语言及潜在漏洞常见后端语言协议问题后端潜在漏洞 数据库及潜在漏洞数据库分类数据…

使用LangGraph构建多Agent系统架构!

0 前言 Agent是一个使用大语言模型决定应用程序控制流的系统。随着这些系统的开发,它们随时间推移变得复杂,使管理和扩展更困难。如你可能会遇到: Agent拥有太多的工具可供使用,对接下来应该调用哪个工具做出糟糕决策上下文过于…

Scala中抽象类重写

scala中的方法可以是抽象的和非抽象的,同样属性也可以是抽象和非抽象的。抽象方法可以实现,而非抽象方法可以继承或重写。属性中对于抽象成员是必须要实现的,而非抽想成员可以继承或重写。 如果子类中对抽象类中的方法定义不满意&#xff0c…