YARN详解

ops/2024/9/24 21:24:35/

YARN 简介

YARN 是Yet Another Resource Negotiator的缩写。
YARN是第二代MapReduce,即MRv2,是在第一代MapReduce基础上演变而来的,主要是为了解决原始Hadoop扩展性较差,不支持多计算框架而提出的;通俗讲就是资源管理器.

  • YARN核心思想:

将 MR1 中资源管理和作业调度两个功能分开,分别由 ResourceManager 和 ApplicationMaster 进程来实现。
ResourceManager : 负责整个集群的资源管理和调度。
ApplicationMaster : 负责应用程序相关事务,比如任务调度、任务监控和容错等。

YARN 作用

YARN 采用了一种分层的集群框架,它解决了 MR1.0 一系列的缺陷,具有以下优势:

  1. 具有向后兼容性,用户在 MR1.0 上运行的作业,无需任何修改即可运行在 YARN 之上.
  2. 将JobTracker功能分解,分别由ResouceManager(资源管理)和ApplicationMaster(应用程序管理)负责,每个应用程序(节点进程)对应一个ApplicationMaster.
  3. 支持多个框架,不再是一个单纯的计算框架,而是一个框架管理器(更加抽象所以拓展性强),用户可以将各种各样的计算框架移植到YARN之上,由YARN进行统一管理和资源分配,提高集群资源的利用率.
  4. 框架升级更容易,在YARN中,各种计算框架(MR,Spark)不再是作为一个服务部署到集群的各个节点上,而是被封装成一个用户程序库(lib)存放在客户端,当需要对计算框架进行升级时,只需升级用户程序库即可.

YARN 组成

YARN 主要由
ResourceManagerNodeManagerApplicationMasterContainerScheduler
等几个组件构成。
在这里插入图片描述

ApplicationsManager

应用程序管理器
负责管理整个系统中所有应用程序,包括应用程序提交、与调度器协商资源以启动ApplicationMaster、监控ApplicationMaster运行状态并在失败时重新启动它等。

Scheduler

调度器
根据容量、队列等限制条件(如每个队列分配一定的资源,最多执行一定数量的作业等),将系统中的资源分配给各个正在运行的应用程序;
在资源紧张的情况下,可以kill掉优先级低的,来运行优先级高的任务.

ResourceManager

全局资源管理器;
由调度器(Scheduler)和应用程序管理器(ApplicationsManager)组成,
RM是一个全局的资源管理器,负责整个系统的资源管理和分配;
通俗讲就是用于管理NodeManager 节点的资源,包括cpu、内存等.

ApplicationMaster

应用程序实例管理器
管理在 YARN 内运行的每个应用程序实例.
每个应用程序对应一个 AM.
AM 负责协调来自 RM 的资源,并通过 NM监视容器的执行和资源使用(CPU、内存等的资源分配),通俗讲是管理发起的任务,随着任务创建而创建,任务的完成而结束.

NodeManager

节点管理器 是每个节点上的资源和任务管理器. 一方面,它会定时地向 RM 汇报本节点上的资源使用情况和各个Container的运行状态;
另一方面,它接收并处理来自 AM 的Container启动/停止等各种请求.

Container

容器,是 YARN 中的资源抽象 它封装了 NM 节点上的多维度资源,如内存、CPU、磁盘、网络等;
当 AM 向 RM申请资源时,RM为AM返回的资源便是用Container表示的.
YARN 会为每个任务分配一个Container,且该任务只能使用该Container 中描述的资源.

YARN 提交任务的过程

在这里插入图片描述

  1. 用户向 YARN 中提交应用程序.
  2. ResourceManager为该应用程序分配第一个Container,要求它在这个Container中启动应用程序的ApplicationMaster.
  3. ApplicationMaster首先向ResourceManager注册,目的是让用户可以直接通过ResourceManager查看应用程序的运行状态,然后它将为各个任务申请资源,并监控它的运行状态,直到运行结束.
  4. ApplicationMaster向ResourceManager 的 scheduler申请和领取资源(通过RPC协议).
  5. ApplicationMaster申请到资源后,便与对应的NodeManager通信,要求它启动任务.
  6. NodeManager启动任务。
  7. 各个任务向ApplicationMaster汇报自己的状态和进度(通过RPC协议),以便让ApplicationMaster随时掌握各个任务的运行状态,从而可以在任务失败时重新启动任务.
  8. 应用程序运行完成后,ApplicationMaster向ResourceManager注销并关闭自己.

YARN的三种调度策略

FIFO 策略

在这里插入图片描述

First In First Out,先进先出.
弊端:
没有做到资源共享;由于顺序执行任务,如果第一个是大量资源,后续任务需要等待.

举例:
有两个任务,第一个是任务需要大量资源;第二个需要少量资源,但是紧急重要任务;
此时第二个需要等待第一个执行完,才能执行.

容量调度策略

在这里插入图片描述

属于共享调度策略;将集群资源,给队列分配部分资源,每个队列互不干涉.
弊端:
某个队列突然来个大的任务,那这个大的任务不会占用其他队列资源,执行时间长,效率低.
解决:
配置弹性队列;允许队列超过自己配置的容量,但仅在其他队列没有占用资源的情况下.
容量调度 + 弹性队列 = 实现资源共享

公平调度策略

在这里插入图片描述

队列间可以互相共享资源,如果权重高的任务来了,权重低的任务会分给权重高的任务部分资源,必要时,可kill掉权重低的任务.

1.Steady Fair Share
稳定的公平份额,指Yarn根据每个队列的权重weight、最大可运行资源maxShare、最小可运行资源minShare的配置计算得到的理论上应该分配给这个队列的最大资源;
它与这个队列当前是否有app正在运行无关,只和我们在fair-scheduler.xml中的配置有关.

2.Instantaneous Fair Share
瞬时的公平份额,指的是实时动态分配的资源,它的值是随着集群资源的变动而实时变动的;
如果集群中有队列从active变为inactive(不活动的),那么剩余的队列分到的instaneous fair share都会随之变大;反之,如果有一个队列从inactive变为active,则其他队列的instaneous fair share会随之变小,即instaneous fair share会变小.


http://www.ppmy.cn/ops/32193.html

相关文章

C++20:方向之争 C++20 特性 模块 协程 无栈协程 编译期 计算支持 静态反射 模式匹配

C++20:方向之争 C++20作为C++语言的一个新标准,带来了许多新的特性和改进,同时也引发了一些关于发展方向的争议。这些争议主要集中在如何平衡语言的复杂性、性能、易用性以及与其他编程语言和技术的集成等方面。 首先,C++20引入了一些新的语言特性和库,如concepts(概念…

自动控制原理学习--平衡小车的控制算法(一)

基于单片机STM32的两轮平衡小车,单片机的各种IO、定时器、通讯等等一大堆要理解、编程,但这些都是琐碎的文档知识,需要花时间看各个模块的接口文档进而编程,需要良好的编程逻辑思维,去获取相关的传感模块信息&#xff…

小程序wx.getlocation接口如何开通?

小程序地理位置接口有什么功能? 随着小程序生态的发展,越来越多的小程序开发者会通过官方提供的自带接口来给用户提供便捷的服务。但是当涉及到地理位置接口时,却经常遇到申请驳回的问题,反复修改也无法通过,给的理由…

STM32的TIM输入捕获和PWMI详解

系列文章目录 STM32单片机系列专栏 C语言术语和结构总结专栏 文章目录 1. IC输入捕获 2. 频率测量 3. 主模式、从模式、触发源选择 4. 输入捕获基本结构 5. PWMI模式 6. 代码示例 6.1 PWM.c 6.2 PWM.h 6.3 IC.c 6.4 IC.h 6.5 完整工程文件 输出比较可以看下面这篇…

C语言之数据结构之栈和队列的运用

目录 1. 用队列实现栈1.1 思路讲解1.2 代码实现 2. 用栈实现队列1.1 思路讲解1.2 代码实现 总结 •͈ᴗ•͈ 个人主页:御翮 •͈ᴗ•͈ 个人专栏:C语言数据结构 •͈ᴗ•͈ 欢迎大家关注和订阅!!! 1. 用队列实现栈 题目描述: 请你仅使用两个…

python学习笔记B-20:序列实战--处理千年虫

将2位数表达的年份,转换为用4位数表达: print("将列表中的2位数年份转换为4位数年份") lst[88,89,90,00,99] print(lst) for index in range(len(lst)):if len(str(lst[index]))2:lst[index] 1900int(lst[index])elif len(str(lst[index]))1…

Git的基本操作和使用

git分支指令 列出所有本地分支 git branchmaster是绿的 前面有个 表示当前分支是master* 列出所有远程分支 git branch -r列出所有本地分支和远程分支 git branch -a新建一个分支,但依然停留在当前分支 git branch [branch-name]新建一个分支,并切…

【C++并发编程】(二)线程的创建、分离和连接

文章目录 (二)线程的创建、分离和链接创建线程:示例线程的分离(detach)和连接(join)。 (二)线程的创建、分离和链接 创建线程:示例 线程(Thread…