Hadoop Shuffle

Hadoop Shuffle

news/2024/12/23 6:07:10/

一、大体流程

Shuffle描述的是数据从Map端到Reduce端的过程，大致分为排序（sort）、溢写（spill）、合并（merge）、拉取拷贝（Copy）、合并排序（merge sort）这几个过程。

二、Map端

在这里插入图片描述

1、sort

Map端的输出数据，先写环形缓存区kvbuffer，当环形缓冲区到达一个阀值（可以通过配置文件设置，默认80），便要开始溢写，但溢写之前会有一个sort操作，这个sort操作先把Kvbuffer中的数据按照partition值和key两个关键字来排序，移动的只是索引数据，排序结果是Kvmeta中数据按照partition为单位聚集在一起，同一partition内的按照key有序。
2、spill

当排序完成，便开始把数据刷到磁盘，刷磁盘的过程以分区为单位，一个分区写完，写下一个分区，分区内数据有序，最终实际上会多次溢写，然后生成多个文件。
3、merge

spill会生成多个小文件，对于Reduce端拉取数据是相当低效的，那么这时候就有了merge的过程，合并的过程也是同分片的合并成一个片段（segment），最终所有的segment组装成一个最终文件，那么合并过程就完成了,如下图所示

三、Reduce

在这里插入图片描述

1、fetch copy

Reduce任务通过向各个Map任务拉取对应分片。这个过程都是以Http协议完成，每个Map节点都会启动一个常驻的HTTP server服务，Reduce节点会请求这个Http Server拉取数据，这个过程完全通过网络传输，所以是一个非常重量级的操作。
2、merge-sort

Reduce端，拉取到各个Map节点对应分片的数据之后，会进行再次排序，排序完成，结果丢给Reduce函数进行计算。

四、Reduce

1、shuffle过程就是为了对key进行全局聚合
2、排序操作伴随着整个shuffle过程，所以Hadoop的shuffle是sort-based的

http://www.ppmy.cn/news/449926.html

相关文章

shuffle阶段做了什么？什么是shuffle阶段？

shuffle阶段做了什么？什么是shuffle阶段？

直白点来说map输出到reduce输入的中间过程就是shuffle阶段，那么现在就来说下shuffle做了什么： (1)collect阶段：将 MapTask 的结果输出到默认大小为 100M 的环形缓冲区， 保存的是 key/value，Partition 分区信息等。 …

阅读更多...

ColorUI 全网最全使用文档（建议收藏）

ColorUI 全网最全使用文档（建议收藏）

Color UI 我想大家都知晓吧，我就不过多阐述了，是文晓港大佬开发的一款适应于H5、微信小程序、安卓、ios、支付宝的高颜值，高度自定义的 Css 组件库.，属于出道即巅峰的史诗级大作，众所周知，万物皆可 Color…

阅读更多...

Spark Shuffle

Spark Shuffle

Spark Shuffle Spark Shuffle是发生在宽依赖(Shuffle Dependency)的情况下，上游Stage和下游Stage之间传递数据的一种机制。Shuffle解决的问题是如何将数据重新组织，使其能够在上游和下游task之间进行传递和计算。如果是单纯的数据传递，则只需…

阅读更多...

mr shuffle和spark shuffle的区别

mr shuffle和spark shuffle的区别

前言对比mr和spark，Shuffle 过程有着诸多类似，例如，Shuffle 过程中，提供数据的一端被称作 Map 端，Map 端每个生成数据的任务称为 Mapper，对应的，接收数据的一端被称作 Reduce 端，…

阅读更多...

Shuffle介绍

Shuffle介绍

一概述 Shuffle就是对数据进行重组，由于分布式计算的特性和要求，在实现细节上更加繁琐和复杂在MapReduce框架，Shuffle是连接Map和Reduce之间的桥梁，Map阶段通过shuffle读取数据并输出到对应的Reduce；而Reduce阶段负…

阅读更多...

Hadoop中的Shuffle 与 Spark中的Shuffle的区别与联系

Hadoop中的Shuffle 与 Spark中的Shuffle的区别与联系

MapReduce过程、Spark和Hadoop以Shuffle为中心的对比分析 mapreduce与Spark的map-Shuffle-reduce过程 mapreduce过程解析（mapreduce采用的是sort-based shuffle）将获取到的数据分片partition进行解析，获得k/v对，之后交由map()进行处理. map函数处理完成之后，进入collec…

阅读更多...

Spark的shuffle

Spark的shuffle

1. Spark的shuffle阶段发生在阶段划分时，也就是宽依赖算子时。宽依赖算子不一定发生shuffle。 2. Spark的shuffle分两个阶段，一个使Shuffle Write阶段，一个使Shuffle read阶段。 3. Shuffle Write阶段会选择分区器，比如HashP…

阅读更多...

Spark Shuffle之Sort Shuffle

Spark Shuffle之Sort Shuffle

概述 Spark 1.2起默认使用Sort Shuffle，并且Sort Shuffle在map端有三种实现，分别是UnsafeShuffleWriter、BypassMergeSortShuffleWriter、SortShuffleWriter，根据运行时信息自动选择对应的实现。三种ShuffleWriter实现简单介绍三种Shuff…

阅读更多...

最新文章