宽窄依赖/宽窄巷子——spark

news/2024/12/16 11:27:20/

宽窄依赖是用于标记算子是否需要shuffle过程的

——本质:只是一种标记,标记两个RDD之间的依赖关系,用于判断是否需要进行shuffle

窄依赖:Narrow Dependencies

 

定义:父RDD的一个分区的数据只给了子RDD的一个分区 【不用经过Shuffle】 特点:一对一或者多对一不经过Shuffle,性能相对较快, 但无法实现全局分区、排序、分组等 一个Stage内部的计算都是窄依赖的过程,全部在内存中 完成。

宽依赖:Wide/Shuffle Dependencies

 

 

定义:父RDD的一个分区的数据给了子RDD的多个分区【需要调用Shuffle的分区器来实现】 特点:一对多,必须经过Shuffle,性能相对较慢,可以实现全局分区、排序、分组等 Spark的job中按照宽依赖来划分不同的Stage

为什么要标记宽窄关系?

1)提高数据容错的性能,避免分区数据丢失时,需要重新构建整个RDD

场景:如果子RDD的某个分区的数据丢失
不标记:不清楚父RDD分区与子RDD分区数据之间的关系,必须重新构建整个父RDD所有分区数据
标记了:父RDD一个分区只对应子RDD的一个分区,按照对应关系恢复父RDD的对应分区即可

 2)提高数据转换的性能,将连续窄依赖操作使用同一个Task都放在内存中直接转换

如果不标记,怎么知道哪些算子需要shuffer呢?
————就只能把数据放在磁盘,让shuffer算子,去拉取数据,效率低

 


http://www.ppmy.cn/news/1555573.html

相关文章

Devops-蓝鲸篇-03-蓝盾流水线简单介绍

BKCI流水线快速了解 BK-CI 可以帮你快速实现一条持续交付流水线来编译、测试、部署你的应用,下面将通过教程和文档指南告诉你,怎么在 BK-CI 里配置和管理持续集成、持续交付(CI/CD)流水线。 下面为流水线的完整逻辑图&#xff1…

C++中的接口继承和实现继承以及多态性与性能的平衡处理

接口继承 接口继承是指子类只继承基类的纯虚函数,即只继承基类的接口,而不继承基类的实现。子类必须实现基类中的所有纯虚函数,否则子类也将成为抽象类。在 C 中,接口继承主要通过抽象类来实现。抽象类是包含至少一个纯虚函数的类…

Django ORM – 多表实例

表与表之间的关系可分为以下三种: 一对一: 一个人对应一个身份证号码,数据字段设置 unique。一对多: 一个家庭有多个人,一般通过外键来实现。多对多: 一个学生有多门课程,一个课程有很多学生,一般通过第三个表来实现关…

Spire.PDF for .NET【页面设置】演示:向 PDF 文档添加页码

在 PDF 文档中添加页码不仅实用,而且美观,因为它提供了类似于专业出版材料的精美外观。无论您处理的是小说、报告还是任何其他类型的长文档的数字副本,添加页码都可以显著提高其可读性和实用性。在本文中,您将学习如何使用Spire.P…

游戏引擎学习第47天

仓库: https://gitee.com/mrxiao_com/2d_game 昨天我们花了一点时间来修复一个问题,但基本上是在修复这个问题的过程中,我们决定添加一个功能,那就是在屏幕上控制多个实体。所以如果我有一个手柄,我可以添加另一个角色&#xff0…

java agent-03-Java Instrumentation 结合 bytekit 实战笔记 agent attach

java agent 系列 java agent 介绍 java agent-02-Java Instrumentation API java agent-03-Java Instrumentation 结合 bytekit 实战笔记 agent attach java agent-03-Java Instrumentation 结合 bytekit 实战笔记 agent premain 拓展阅读 前面几篇文档,我们简…

⭐Redis - 手动实现分布式锁 Redisson 的使用

概述 定义:分布式系统或集群模式下,多进程或多节点之间 “可见” 并且 “互斥” 的锁机制 功能:确保同一时刻只有一个进程或节点能够获取某项资源的访问权 特点 互斥高可用多进程可见高并发 (高性能)安全性 (避免死锁问题) 常见的分布式锁 …

【软件工程】第八章·单元/集成测试程序

🌈 个人主页:十二月的猫-CSDN博客 🔥 系列专栏: 🏀软件开发必练内功_十二月的猫的博客-CSDN博客 💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光 目录 1. 前…