Spark中的shuffle过程详细

ops/2024/11/15 7:01:41/

一、Spark中哪些算子会产生Shuffle

全局分组:reduceByKey,groupByKey

全局排序:sortBy,sortByKey

增大分区:repartition,coalese

groupByKey sortByKey sortBy reduceByKey repartition
coalesce(根据情况)  join / fullOuterJoin / leftOuterJoin / rightOuterJoin

二、Spark中有哪些shuffle分类

        Hash Based Shuffle (老的) Sort Based Shuffle 新的shuffle工具中包含Tungsten-Sort Based Shuffle

        1、Hash Based Shuffle

        没有排序,只有分区,每个Task按照ReduceTask个数生成【M*R】,简单数据量比较小,性能就比较高,但是:小文件非常多,数据量比较大性能非常差

2、Hash Based Shuffle 优化后,File  Consolidation机制

        没有排序,只有分区,每个Executor按照ReducTask个数生成多个文件:Executor*R

3、Sort Based Shuffle 目前是最新的

        分为两个

        Shuffle Write:类似于mr中map端的shuffle,但是Spark的Shuffle Write有3种,会根据情况自动判断选择哪种Shuffle Write

        Shuffle Read:类似与mr种的reduce端shuffle,但是Spark的Shuffle Read功能由算子决定,不同算子经过的过程不一样

        SortShuffleWrite:普通 Sort Shuffle Write

        排序,生成一个整体基于分区和分区内部有序的文件和一个索引文件,有序排序,先生成多个小文件,再生成整体有序大文件,每个Task生成2个文件,数据文件和索引文件,Sort Shuffle Write过程与MapReduce的Map端shuffle基本一致

        BypassMergeSortShuffleWriter:

类似与序列化后的Hash Based Shuffle,先每个分区生成一个文件,最后合并为一个大文件,分区内部不排序,分区数小于200,并且没有map端的聚合操作,适用于数据量小的数据,不在内存中排序

        UnsafeShuffleWriter

        钨丝计划方案,使用UnSafe API操作序列化数据,使用压缩指针存储元数据,溢写合并使用fastMerge提升效率,Map端没有聚合操作、序列化方式需要支持重定位,Partition个数不能超过2^24-1个

        什么时候下使用ShuffleWriter

ShuffleWriter的实现方式

        BypassMergeSortShuffleWriter

        使用这种shuffle writer的条件是,没有map端的聚合操作,分区数小于参数:spark.shuffle.sort.bypassMergeThreshold,默认是200

        UnsafeShuffleWriter

        使用这种shuffle writer的条件是,序列化工具类支持对象的重定位,不需要在map端进行聚合操作,分区数不能大于:PackedRecordPointer.MAXIMUM_PARTITION_ID + 1

        SortShuffleWriter

        若以上两种shuffle writer都不能选择,则使用该shuffle writer类。
这也是相对比较常用的一种shuffle writer。

Shuffle Read:类似于MapReduce中的Reduce端shuffle

        Reduce端的shuffle过程一定会经过合并排序、分组,不需要排序,依旧会给结果进行排序


http://www.ppmy.cn/ops/132660.html

相关文章

微深节能 煤码头自动化翻堆及取料集控系统 格雷母线

一、系统概述 微深节能在煤码头自动化翻堆及取料集控系统中引入了格雷母线高精度位移测量系统,该系统是一项重要的技术创新,显著提升了煤码头作业的自动化水平和精确性。它主要用于实现对斗轮堆取料机等大型机械设备的精准定位和自动化控制,从…

【NLP】使用 SpaCy、ollama 创建用于命名实体识别的合成数据集

命名实体识别 (NER) 是自然语言处理 (NLP) 中的一项重要任务,用于自动识别和分类文本中的实体,例如人物、位置、组织等。尽管它很重要,但手动注释大型数据集以进行 NER 既耗时又费钱。受本文 ( https://huggingface.co/blog/synthetic-data-s…

CPP贪心算法示例

设有n个正整数(n ≤ 20),将它们联接成一排,组成一个最大的多位整数。 例如:n3时,3个整数13,312,343联接成的最大整数为:34331213 又如:n4时,4个整…

【IT人物系列】之Java之父

前言 当今世界由无数的人构成,其中有些人做了一些改变世界的事情,比如:乔布斯缔造了Apple帝国,‌詹姆斯高斯林创造了Java语言等。正是这些优秀的人做的这些优秀的事情,让这个世界更加美好。因此他们值得铭记。 从今天…

运用Agent搭建“狼人杀”游戏服务器端!

背景 从23年开年以来,大模型引爆了各行各业。去年比较出圈的是各类文生图的应用,比如Stable Diffusion。网上可以看到各类解释其背后的原理和应用的文章。另外一条平行线,则是文生文的场景。受限于当时LLM(大语言模型&#xff09…

使用k8s RBAC和ValidatingAdmissionPolicy 配合来校验用户权限

我先讲一下业务场景: k8s集群内部有几个重要的命名空间(比如: kube-system, kube-public 等),这些命名空间除了管理员有权限,其他用户不可以操作(编辑,删除)这几个命名空…

NF4量化算法的PyTorch实现

为了方便理解NF4算法的实现,这里用PyTorch实现了一版可以和CUDA NF4精度对齐的量化和反量化函数,并使用llama-3.1-8b模型进行测试,可以做到和CUDA实现的算子精度基本对齐(仅反量化存在少许误差),并对模型输…

腾讯混元3D-1.0:文本到三维和图像到三维生成的统一框架

虽然三维生成模型极大地改进了艺术家的工作流程,但现有的三维生成扩散模型存在生成速度慢、泛化能力差的问题。 为了解决这个问题,我们提出了一种名为 "Hunyuan3D-1.0 "的两阶段方法,包括精简版和标准版,均支持文本和图…