spark.default.parallelism 在什么时候起作用,与spark.sql.shuffle.partitions有什么异同点?

news/2024/11/16 19:36:02/

spark.default.parallelismspark.sql.shuffle.partitions 是 Spark 中两个控制并行度的配置参数,但它们作用的场景和用途不同:

sparkdefaultparallelism_2">spark.default.parallelism

  • 用途spark.default.parallelism 用于控制 RDD 中的默认分区数。
  • 适用场景:在使用 SparkContext.parallelize 或者执行非 Shuffle 类操作(例如 mapfilter)创建 RDD 时,如果未显式指定分区数,那么 Spark 会用 spark.default.parallelism 的值作为分区数量。
  • 默认值:通常,spark.default.parallelism 会根据集群中的 CPU 核心数来决定,通常是 SparkContext.defaultParallelism 的 2 倍,即每个核对应 2 个分区。
  • 作用时间:主要影响非 Spark SQL 操作的 RDD,并在无指定分区数时起作用。

sparksqlshufflepartitions_8">spark.sql.shuffle.partitions

  • 用途spark.sql.shuffle.partitions 用于控制 Spark SQL 查询中 Shuffle 阶段的分区数。
  • 适用场景:在执行 Spark SQL 或 DataFrame API 操作时(如 groupByjoinorderBy 等涉及 Shuffle 的操作),Spark 会依据 spark.sql.shuffle.partitions 的值来决定 Shuffle 阶段的分区数量。
  • 默认值:该参数的默认值是 200,但可以根据数据规模、集群资源等进行调整,以优化性能。
  • 作用时间:此参数仅影响 Spark SQL 的 Shuffle 操作,与 RDD 操作无关。

异同点总结

  • 异同
    • spark.default.parallelism 主要影响 RDD 的初始并行度,而 spark.sql.shuffle.partitions 则专门控制 Spark SQL 中的 Shuffle 分区数。
    • 前者在非 SQL 的 RDD 操作中起作用,后者则仅对 SQL 或 DataFrame API 中的 Shuffle 操作生效。
  • 配置建议
    • 如果以 RDD 为主,则可以根据集群大小和任务负载调整 spark.default.parallelism
    • 如果以 SQL 和 DataFrame 操作为主,特别是需要进行大量 Shuffle 的场景,可以适当调整 spark.sql.shuffle.partitions 来优化性能(如减少分区数以降低小任务开销,或增加分区数以加快数据处理速度)。

http://www.ppmy.cn/news/1547522.html

相关文章

音视频入门基础:MPEG2-TS专题(4)——使用工具分析MPEG2-TS传输流

一、引言 有很多工具可以分析MPEG2-TS文件/流,比如Elecard Stream Analyzer、PROMAX TS Analyser、easyice等。下面一一对它们进行简介(个人感觉easyice功能更强大一点)。 二、Elecard Stream Analyzer 使用Elecard Stream Analyzer工具可以…

【mysql】使用宝塔面板在云服务器上安装MySQL数据库并实现远程连接

前言 使用宝塔Linux面板安装MySQL数据库并实现远程连接 使用宝塔面板安装mysql 宝塔面板,华为云开放3306端口 一些命令 // 命令行连接数据库 mysql -uroot -p // MySQL 5 版本 GRANT ALL ON *.* TO root% IDENTIFIED BY 替换成你的root密码 WITH GRANT OPTION; // …

C++ 数据结构详解

目录 C 数据结构详解 引言 1. 数组 (Array) 示例代码 2. 向量 (Vector) 示例代码 3. 链表 (List) 示例代码 4. 栈 (Stack) 示例代码 5. 队列 (Queue) 示例代码 6. 集合 (Set) 示例代码 7. 映射 (Map) 示例代码 C 数据结构详解 引言 数据结构是计算机科学中的…

集合的介绍与比较器的应用

1.集合: 是一种容器,一种变量类型,跟数组很像 数组的缺点: A.数组的空间长度固定,一旦确定不可以更改。多了浪费,少了报错。 B.使用数组 操作数据的时候,【删除,增加】效率比较低。…

RTSP播放器EasyPlayer.js播放器UniApp或者内嵌其他App里面webview需要截图下载

EasyPlayer.js H5播放器,是一款能够同时支持HTTP、HTTP-FLV、HLS(m3u8)、WS、WEBRTC、FMP4视频直播与视频点播等多种协议,支持H.264、H.265、AAC、G711A、Mp3等多种音视频编码格式,支持MSE、WASM、WebCodec等多种解码方…

sqli-labs靶场9-12关(每日4关练习) 持续更新!!!

Less-9 我们先开始判断注入点,闭合方式,数据列数,联合注入这一套下来,发现页面保持不变,大家肯定会想到盲注,上一题是布尔盲注,那这道题会不会是布尔盲注呢??&#xff1…

基于lighthouse搭建私有网盘Cloudreve【开源应用实践】

基于lighthouse搭建私有网盘Cloudreve【超高性价比】 今天给大家分享一款私人网盘神器,既能存放你的文件文档,也能替你保存那不可告人的秘密~ 香菇今天将手把手教给大家如何在腾讯云轻量应用服务器上搭建个人专属网盘 1. 既爱又恨的网盘存储 很多小伙伴…

【EasyExcel】复杂导出操作-自定义颜色样式等(版本3.1.x)

文章目录 前言一、自定义拦截器二、自定义操作1.自定义颜色2.合并单元格 三、复杂操作示例1.实体(使用了注解式样式):2.自定义拦截器3.代码4.最终效果 前言 本文简单介绍阿里的EasyExcel的复杂导出操作,包括自定义样式,根据数据合并单元格等。…