shuffle——spark

server/2024/12/17 8:36:45/

什么是shuffle

shuffle过程本质上是磁盘读写的过程

Spark Shuffle过程也叫作宽依赖过程

Spark中哪些算子会产生Shuffle? 

连接类 :join fullOuterJoin leftOuterjoin rightOuterJoin
分区类:repartition coalesce(根据情况)
排序类:sortBy sortByKey
汇总类:reduceBykey groupBykey
去重类:distinct
flatmap

spark中的shuffle

1)Hash Based Shuffle

 

特点:没有排序,只分区,每个Task按照ReduceTask个数生成多个文件【M * R】 优点:简单,数据量比较小,性能就比较高 缺点:小文件非常多,数据量比较大性能非常差

2) Hash Based Shuffle 【优化后的,File Consolidation机制】

 

 

两个Executor ,4个ReduceTask,那就是 2 * 4 = 8 进步在哪里?进度在于如果是以前 4 个 map 4 个 reduce 形成 16 个文件,现在引入 executor 以后,生成 8 个文件。 生成的文件数量 =Executor的数量*reduce任务的数量 原来:生成的文件数量 =map任务的数量*reduce任务的数量

 3) Sort Based Shuffle [目前最新的]

Shuffle Write

第一种:SortShuffleWriter:普通Sort Shuffle Write机制

与MR的Map端Shuffle基本一致
生成一个整体基于分区和分区内部有序的文件和一个索引文件
特点:有排序,先生成多个有序小文件,再生成整体有序大文件,每个Task生成2个文件,数据文件和索引文件

 

第二种:BypassMergeSortShuffleWriter 

类似于优化后的Hash Based Shuffle
先为每个分区生成一个文件,最后合并为一个大文件,分区内部不排序
跟第一个相比,处理的数据量小,处理的分区数小于200 ,不在内存中排序。
场景:数据量小

第三种:UnsafeShuffleWriter

Partition个数不能超过2^24-1个(大于200用这个)
场景:数据量大
Shuffle Read 

 

类似于MapReduce中的Reduce端shuffleMR:Reduce端的shuffle过程一定会经过合并排序、分组


http://www.ppmy.cn/server/150848.html

相关文章

《自制编译器》--青木峰郎 -读书笔记 编译hello

在该书刚开始编译hello.cb时就遇到了问题。 本人用的是wsl,环境如下, 由于是64位,因此根据书中的提示,从git上下载了64位的cb编译器 cbc-64bit 问题一: 通过如下命令编译时,总是报错。 cbc -Wa,"--32" -Wl,"-…

当前热门 DApp 模式解析:六大方向的趋势与创新

去中心化应用(DApp)随着区块链技术的不断发展,已经成为 Web3 领域的核心创新之一。与传统应用不同,DApp 通过智能合约运行在区块链上,具有去中心化、透明、安全等特点。近年来,随着用户需求的变化和技术的发…

C# 解决访问 API 显示基础连接已经关闭的问题

目录 故障现象 开发运行环境 解决 其它 故障现象 最近在 Web 部署百度 AI 图像识别 AipSdk.dll 封装库的时候,在调用OCR图像识别 API 的时候,显示为 “ 基础连接已经关闭: 接收时发生错误。” ,并且运行后直接崩溃: 以身份证…

腾讯云COS跨域访问CORS配置

腾讯云COS跨域访问CORS配置方法如下,参考以下截图: 参考文章: 跨域及CORS-Nginx配置CORS

12月最新编程语言排行榜

“岁末将至,2024年的编程世界又发生了哪些变化?是Python依然稳坐王座,还是有新语言杀出重围?让我们一起看看12月最新编程语言排行榜,寻找未来技术的风向标。” 今年,哪些编程语言成为行业焦点?…

BERT模型入门(2)BERT的工作原理

文章目录 如名称所示,BERT(来自Transformer的双向编码器表示)是基于Transformer模型。我们可以将BERT视为只有编码器部分的Transformer。 在上一个主题《Transformer入门》中,我们了解到将句子作为输入喂给Transformer的编码器&a…

AI助力内容审核:精准、高效守护媒体生命线

AI审核取代人类 内容安全现在已经成为各媒体单位的生命线,随着AI技术的飞速发展,AI在内容审核领域的应用也已经成为一种新的趋势,它不仅提高了审核工作的效率,还增强了审核结果的准确性。 AI校对软件和工具通过机器学习和自然语言…

光控资本:锂电排产上行 AI手机有望快速渗透

AI手机有望快速渗透 据赛迪参谋猜想,2024年AI手机的出货量估量将会抵达1.5亿部,占全球智能手机总出货量13%,到2027年,全球AI手机销售量有望跨过5.9亿部,占全球智能手机总出货量的比重跨过50%。 跟着硬件根底夯实、端侧…