性能优化案例:通过合理设置spark.shuffle.memoryFraction参数的值来优化PySpark程序的性能

embedded/2025/2/1 22:21:02/

在PySpark中,合理调整spark.shuffle.memoryFraction参数可以有效优化Shuffle阶段的性能,尤其是在存在大量磁盘溢出的场景下。
通过合理设置spark.shuffle.memoryFraction并结合其他优化手段,可显著减少Shuffle阶段的磁盘I/O,提升PySpark作业的整体性能。以下是优化案例的总结及分步说明:


优化背景

  • 问题现象:PySpark作业在Shuffle阶段(如groupByKeyjoin等操作)耗时过长,日志显示Shuffle Spill (Disk)指标极高,表明内存不足导致频繁磁盘溢出。
  • 默认配置spark.shuffle.memoryFraction默认值为0.2,即Executor堆内存的20%分配给Shuffle操作。

优化原理

  1. 参数作用spark.shuffle.memoryFraction控制Shuffle过程中聚合、排序等操作的内存占比。内存不足时,Spark会将数据溢写到磁盘,显著降低性能。
  2. 内存划分(以Spark 1.x为例):
    • 总堆内存:由spark.executor.memory设置。
    • 保留内存:固定为总内存的10%(至少300MB)。
    • 可用内存:总内存 - 保留内存。
    • Shuffle内存可用内存 * spark.shuffle.memoryFraction
    • 存储内存可用内存 * spark.storage.memoryFraction(默认0.6)。

优化步骤

1. 监控与诊断
  • 查看Spark UI
    • 在Stages页面,检查Shuffle操作的Shuffle Spill (Memory/Disk)指标。若Disk溢出量远高于Memory,表明Shuffle内存不足。
    • 检查Executor的GC时间,内存不足可能导致频繁GC。
sparkshufflememoryFraction_28">2. 调整spark.shuffle.memoryFraction
  • 调高比例:若Shuffle溢出严重,逐步增加该参数(如从0.2调至0.3):
    python">conf = SparkConf() \.set("spark.shuffle.memoryFraction", "0.3")  # 分配30%的可用内存给Shuffle
    
  • 平衡存储内存:若同时需要缓存数据,需调整spark.storage.memoryFraction,确保两者总和不超过0.8:
    python">.set("spark.storage.memoryFraction", "0.5")  # 存储内存降为50%
    
3. 调整Executor总内存
  • 若物理资源允许,增加Executor总内存(spark.executor.memory),直接扩大各区域内存容量:
    spark-submit --executor-memory 8g ...
    
4. 结合其他优化措施
  • 减少Shuffle数据量
    • 使用reduceByKey代替groupByKey,提前聚合数据。
    • 使用广播变量替代大表join
  • 调整并行度:通过spark.sql.shuffle.partitions增加分区数,降低单个任务负载。
  • 启用压缩:设置spark.shuffle.compress=true,减少Shuffle数据传输量。
5. 验证与调优
  • 重新运行作业,观察Shuffle溢出和GC时间是否减少。
  • 若性能未改善或出现其他瓶颈(如存储内存不足),需重新权衡参数或优化代码逻辑。

示例配置

python">from pyspark import SparkConf, SparkContextconf = SparkConf() \.setAppName("Shuffle Memory Tuning") \.setMaster("yarn") \.set("spark.executor.memory", "8g") \          # 总堆内存8G.set("spark.shuffle.memoryFraction", "0.3") \  # Shuffle内存占比30%.set("spark.storage.memoryFraction", "0.5") \  # 存储内存占比50%.set("spark.sql.shuffle.partitions", "200")    # 增加Shuffle分区数sc = SparkContext(conf=conf)

注意事项

  • Spark版本差异:Spark 1.6+采用统一内存管理,Shuffle内存动态共享,建议优先升级并使用spark.memory.fraction(默认0.6)调整总内存池。
  • 资源竞争:避免过度调高Shuffle内存,导致存储内存不足或频繁GC。
  • 综合优化:参数调整需配合代码逻辑优化,如避免宽依赖、合理设计数据倾斜处理方案。

http://www.ppmy.cn/embedded/158741.html

相关文章

多级缓存(亿级并发解决方案)

多级缓存(亿级流量(并发)的缓存方案) 传统缓存的问题 传统缓存是请求到达tomcat后,先查询redis,如果未命中则查询数据库,问题如下: (1)请求要经过tomcat处…

ollama改模型的存盘目录解决下载大模型报c:盘空间不足的问题

使用Ollama和Open WebUI快速玩转大模型:简单快捷的尝试各种llm大模型,比如DeepSeek r1,非常简单方便,参见:使用Ollama和Open WebUI快速玩转大模型:简单快捷的尝试各种llm大模型,比如DeepSeek r1…

Hive:静态分区(分区语法,多级分区,分区的查看修改增加删除)

hive在建表时引入了partition概念。即在建表时,将整个表存储在不同的子目录中,每一个子目录对应一个分区。在查询时,我们就可以指定分区查询,避免了hive做全表扫描,从而提高查询率。 oracle和Hive分区的区别 orcale在…

华为小米vivo向上,苹果荣耀OPPO向下

日前,Counterpoint发布的手机销量月度报告显示,中国智能手机销量在2024年第四季度同比下降3.2%,成为2024年唯一出现同比下滑的季度。而对于各大智能手机品牌来说,他们的市场份额和格局也在悄然发生变化。 华为逆势向上 在2024年第…

集合的奇妙世界:Python集合的经典、避坑与实战

集合的奇妙世界:Python集合的经典、避坑与实战 内容简介 本系列文章是为 Python3 学习者精心设计的一套全面、实用的学习指南,旨在帮助读者从基础入门到项目实战,全面提升编程能力。文章结构由 5 个版块组成,内容层层递进&#x…

【C++】类与对象(中)

🦄 个人主页: 小米里的大麦-CSDN博客 🎏 所属专栏: 小米里的大麦——C专栏_CSDN博客 🎁 代码托管: 小米里的大麦的Gitee仓库 ⚙️ 操作环境: Visual Studio 2022 文章目录 1. 类的6个默认成员函数传道解惑:Q1:e1——类…

前端知识速记—JS篇:箭头函数

前端知识速记—JS篇:箭头函数 什么是箭头函数? 箭头函数是 ES6 引入的一种新的函数书写方式,其语法更为简洁,常用于替代传统的函数表达式。箭头函数的基本语法如下: const functionName (parameters) > {// 函数…

Python3 【装饰器】水平考试和答案

Python3 【装饰器】水平考试和答案 本试卷包含选择题 15 题、填空题 10 题和编程题 5 题,共计 30 道题,满分 100 分。每道题后附有正确答案和解析。 选择题(每题2分,共30分) 装饰器的本质是什么? A. 类 B.…