Spark的shuffle

Spark的shuffle

news/2024/12/22 14:47:22/

1. Spark的shuffle阶段发生在阶段划分时，也就是宽依赖算子时。
宽依赖算子不一定发生shuffle。
2. Spark的shuffle分两个阶段，一个使Shuffle Write阶段，一个使Shuffle read阶段。
3. Shuffle Write阶段会选择分区器，比如HashPartitioner，RangePartitioner，或者使自定义分区器
也会根据一些条件，来选择到底使用哪一个Writer对象
unsafeshuffleWriter
sortShuffleWriter：预排序，默认的
bypassMergeShuffleWriter：不排序，<=200,不预聚合
4. 将RDD的一个分区的数据先按照分区器来划分不同的分区(分区数量由分区器来决定)
5. 如果是默认的sortShuffle，则会预排序，然后写入buffer中
6. 当buffer达到阈值时，或者是最后一次时，会溢写成临时文件
7. 如果产生多个临时文件，则会merge成一个临时文件，一个分区对应一个临时文件
8. 多个分区的临时文件最终会合并成一个临时文件，同时会保存这个文件的索引信息到索引文件里，比如一个分区的偏移量，数据的长度等，到此位置，Shuffle Write阶段结束
9. 下游的RDD的每一个分区对应一个Task，并提供了读buffer,然后开始从各个executor处读取属于自己分区的数据到buffer中，因为可能来自多个executor处，所以会涉及到合并

注意：排序时，使用的是归并算法，字典升序排序规则

http://www.ppmy.cn/news/449919.html

相关文章

Spark Shuffle之Sort Shuffle

Spark Shuffle之Sort Shuffle

概述 Spark 1.2起默认使用Sort Shuffle，并且Sort Shuffle在map端有三种实现，分别是UnsafeShuffleWriter、BypassMergeSortShuffleWriter、SortShuffleWriter，根据运行时信息自动选择对应的实现。三种ShuffleWriter实现简单介绍三种Shuff…

阅读更多...

什么是shuffle？shuffle的原理及过程

什么是shuffle？shuffle的原理及过程

目录一、什么是shuffle 二、为什么要引入shuffle，有哪些影响三、shuffle的工作原理 1、shuffle的阶段 2、shuffle的中间文件 3、Shuffle Write 4、Shuffle Read 四、总结回顾一、什么是shuffle 类比分公司的人与物和 Spark 的相关概念是这样对应的&#…

阅读更多...

Hadoop Shuffle和Spark Shuffle的区别

Hadoop Shuffle和Spark Shuffle的区别

一.MR的ShufflemapShuffle数据存到hdfs中是以块进行存储的，每一个块对应一个分片，maptask就是从分片中获取数据的在某个节点上启动了map Task,map Task读取是通过k-v来读取的,读取的数据会放到环形缓存区，这样做的目的是为了防止IO的访问次数…

阅读更多...

关于Hadoop的shuffle

关于Hadoop的shuffle

我们知道每个reduce task输入的key都是按照key排序的。但是每个map的输出只是简单的key-value而非key-valuelist，所以洗牌的工作就是将map输出转化为reducer的输入的过程。在map结束之后shuffle要做的事情： map的输出不是简单的写入本地文件&am…

阅读更多...

Shuffle 操作

Shuffle 操作

在spark中的主要操作，触发一个叫作shuffle的事件。shuffle是spark对于重新分布数据的机制，因此数据能在partitions上进行不同的分组。Shuffle包含在executors和machines上的数据复制，使得 shuffle成为一个复杂的和昂贵的操作。 backgroud 为…

阅读更多...

shuffle简介

shuffle简介

一、shuffle概述。 hadoop中mapper之后，reducer之前的阶段称之为shuffle，是mapreduce的核心。我们不用知道它的定义，只需要知道它的功能，以及它的优化。为什么会有shuffle？ hadoop中，map负责数据的…

阅读更多...

常见算法面试题

常见算法面试题

【一】时间受限大部分的面试题，都是对时间复杂度有所要求的，如果有涉及，“最快”一类的字样，毫无疑问，先上时空原理，用空间来换时间。Hash，大数组，一些辅助性的空间，都…

阅读更多...

如何利用Spring Boot 3.X与WebSocket实现电脑系统数据的实时刷新？

如何利用Spring Boot 3.X与WebSocket实现电脑系统数据的实时刷新？

通过结合Spring Boot 3.X和WebSocket技术，您可以实现数据的实时传输与展示，从而实现电脑系统数据的实时刷新。本文将介绍必要的步骤和代码示例，帮助您快速上手并应用于您的项目中。通过这种方式，您可以实现即时更新和监控系统数据的需求，提升用户体验和系统的实时性。首…

阅读更多...

最新文章