SPARK:性能调优之RSS

news/2024/9/23 21:07:34/

参考文章:

  • 京东Spark自研Remote Shuffle Service在大促中的应用实践
  • SPARK RSS 杂谈
  • RSS设计文档

一、原生的 shuffle 过程

1、在mapper将shuffle数据写到本地磁盘,每个mapper会按照下游reducer的个数生成block
2、reducer在fetch环节拉取对应的block

性能问题
每个map生成的shuffle数据在一个文件中,文件分成多个block,每个block是一个下游reducer需要处理的数据,因此在shuffle read的时候,reducer需要读取上游属于自己的block,随机读比较严重。

  1. 数据随机读严重
  2. shuffle read 负载不均衡
  3. 数据无备份

体现在SPARK任务报错体现在,reducer的数据拉取报失败。

二、RSS 过程

1、shuffle read:在shuffle read阶段,mapper会将shuffle数据不直接罗盘针,而是按照reducer将block推到rss集群内存中。
2、RSS内存将各mapper产生的数据merge起来,存到hdfs中。
3、shuffle write:reducer在shuffle fetch的时候,reducer向Driver发起请求,拿到MapStatus消息,然后找到HDFS上聚合后的数据。

优点:

  1. 读数据的时候为顺序读,减少磁盘随机读和网络开销。
  2. rss可以做数据备份和数据去重。
  3. shuffle read的集群负载均衡。

http://www.ppmy.cn/news/1429029.html

相关文章

Linux--链表 第二十五天

1. 链表 t1.next -> data t1.next->next->data .(点号)的优先级比->的大 所以 t1.next->data 就可以了 不用(t1.next)->data 2. 链表的静态增加和动态遍历 打印链表算法, void printLink(struct Test *head) { struct Te…

AlDente Pro for mac最新激活版:电池长续航软件

AlDente Pro是一款专为Mac用户设计的电池管理工具,旨在提供电池安全和健康管理的一站式解决方案。它具备实时监控电池状态的功能,让用户随时了解电池的电量、充电次数、健康状态等信息。 AlDente Pro for mac最新激活版下载 同时,AlDente Pro…

BOM事件的重点——之转生在异世界学前端

每个事件都有事件源,事件类型,事件处理程序 事件源指触发事件的元素,事件类型值什么事件,事件处理程序指事件触发要执行的代码 每一个事件类型都有一个事件对象,事件对象是事件源触发产生的对象 事件对象其实指的是…

Centos7 搭建 GitLab服务 下载-安装-配置-卸载 完整版

说明 本文介绍一下 在CentOS7 上执行 GitLab 服务器的离线安装步骤。 本文介绍的步骤适用于 gitlab-ce-10.0.0 至 gitlab-ce-16.xx.xx 版本。 本文详细记录了安装的全部过程,各位读者可以直接1.环境准备 安装依赖 yum install -y curl policycoreutils-python ope…

5.Eureka原理分析

消费者如何获取服务提供者具体信息? 1.服务提供者启动时向Eureka注册自己的信息。 2.Eureka保存这些信息。 3.消费者根据服务名称向Eureka拉取提供者信息。 如果有多个服务的提供者,消费者该如何选择? 1.服务消费者利用负载均衡算法&…

Oracle Hint 语法详解

什么是Hint Hint 是 Oracle 提供的一种 SQL 语法,它允许用户在 SQL 语句中插入相关的语法,从而影响 SQL 的执行方式。 因为 Hint 的特殊作用,所以对于开发人员不应该在代码中使用它,Hint 更像是 Oracle 提供给 DBA 用来分析诊断问…

MongoDB与MySQL的区别???MongoDB的优势???

MongoDB是一种开源的文档型数据库管理系统,它使用类似于JSON的BSON格式(Binary JSON)来存储数据。与传统关系型数据库不同,MongoDB不使用表和行的结构,而是采用集合(Collection)(Mysql表)和文档…

红外接收器的原理以及在STM32和51单片机中的应用

基本介绍: 红外接收器是一种用于接收红外线信号的装置,常见于各种电子设备中,如电视遥控器、空调遥控器等。它能够接收来自发射器发送的红外信号,并将其转换成电信号,以便设备进行相应的操作。红外接收器通常包含红外光…