Hadoop——Yarn基础架构

ops/2024/9/25 7:54:33/

Yarn_0">Hadoop——Yarn基础架构

Hadoop YARN(Yet Another Resource Negotiator)是Apache Hadoop生态系统中的一个子项目,它是用于集群资源管理的框架,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序

YARN的基础架构主要由以下几个组件组成:

  1. ResourceManager(资源管理器)

    • ResourceManager(RM)是整个集群的主节点,负责集群资源的统一管理和调度。它包括两个主要的组件:Scheduler(调度器)和ApplicationManager(应用程序管理器)。
    • Scheduler负责根据应用程序的需求,将集群中的资源分配给不同的应用程序
    • ApplicationManager负责接收来自客户端的应用程序提交请求,并与Scheduler协作以获取资源,并为应用程序分配相应的资源容器。
  2. NodeManager(节点管理器)

    • NodeManager(NM)运行在集群中的每个节点上,负责管理该节点上的资源,并与ResourceManager通信以报告节点的健康状况和可用资源。
    • NodeManager负责启动和监控容器(Container),容器是YARN中的资源分配单元,用于运行应用程序的任务或进程。
  3. ApplicationMaster(应用程序主管)

    • 每个由YARN调度的应用程序都有一个对应的ApplicationMaster(AM),它负责协调应用程序的执行,并与ResourceManager进行通信以请求资源和监控应用程序的状态。
    • ApplicationMaster在启动时会向ResourceManager注册自己,并在执行期间负责管理应用程序的资源需求和任务执行情况。
  4. Container(容器)

    • 容器是YARN中的资源分配单元,它封装了应用程序所需的资源,包括CPU、内存和磁盘等。
    • ResourceManager通过NodeManager启动和监控容器的执行,NodeManager负责在本地启动和管理容器内的任务或进程。

示例

假设用户提交了一个MapReduce作业到Hadoop集群,并且该集群上已经运行了YARN。

  1. 用户提交作业
    用户通过Hadoop集群的客户端工具(如hadoop jar命令)提交了一个MapReduce作业,该作业包含了需要处理的数据、Mapper函数、Reducer函数等信息。

  2. 作业提交到ResourceManager
    当作业提交时,ApplicationManager接收到了这个作业的提交请求。ApplicationManager向ResourceManager注册一个新的应用程序,并向ResourceManager提供作业的资源需求。

  3. ResourceManager分配资源
    ResourceManager接收到作业的资源需求后,调度器(Scheduler)开始分配资源。调度器根据集群中各节点的资源情况和作业的需求,决定在哪些节点上启动作业的任务。它为作业分配了一系列容器(Containers)来运行Mapper和Reducer任务。

  4. 容器启动
    ResourceManager通过与各个NodeManager通信,在选择的节点上启动了容器。每个容器中运行一个作业任务,其中包括Mapper任务和Reducer任务。

  5. 任务执行
    在容器中启动的Mapper任务会读取输入数据,并按照用户指定的Mapper函数进行处理;Reducer任务会接收来自Mapper的中间结果,并按照用户指定的Reducer函数进行处理。这些任务在各自的容器中并行执行。

  6. 监控和状态更新
    各个NodeManager会定期向ResourceManager发送心跳信息,报告节点的健康状况和可用资源。同时,各个容器会向对应的NodeManager发送进度和状态更新信息。ResourceManager和NodeManager根据这些信息来监控作业的执行情况,并在需要时进行调度和容错处理。

  7. 作业完成
    当所有的Mapper和Reducer任务都成功完成时,作业的执行状态被更新为完成,并向用户返回执行结果。ApplicationManager收到作业完成的通知后,将作业的执行结果返回给用户。

在这里插入图片描述


http://www.ppmy.cn/ops/15494.html

相关文章

C++奇迹之旅:深入思考拷贝构造函数

文章目录 📝拷贝构造函数🌠 概念🌉特征 🌠浅拷贝(值拷贝)🌉深拷贝 🌠拷贝构造函数典型调用场景🌠应用时效率的思考🚩总结 📝拷贝构造函数 🌠 概念 在现实生…

doccano 实体识别标注的数据转为 大模型微调的数据集格式

文章目录 背景简介数据集样例转换代码代码公开进一步阅读 背景 用实体识别的标注数据集微调大模型,往往大模型的效果会好一点。 故笔者提供了将 Doccano 实体标注格式的数据集转为大模型微调数据集的代码; 简介 展示 Doccano 实体识别导出的数据集格…

《深入浅出.NET框架设计与实现》笔记6.5——ASP.NET Core应用程序多种运行模式之五——补充说明Kestrel

关于Kestrel Kestrel 不是 ASP.NET Core 的一种运行模式,而是 ASP.NET Core 默认的 Web 服务器。 在 ASP.NET Core 应用程序中,Kestrel 用作 Web 服务器来处理传入的 HTTP 请求,并将它们传递给应用程序进行处理。实际上,Kestrel 通…

飞书API(5):查看多维表 28 种数据类型的数据结构

一、引入 前面我们用于测试的数据集其实都是比较常用的数据,比如说文本、数字、单选等,但飞书多维表并不仅仅只有这些数据,截止发文,飞书多维表应用上支持28种数据类型,在数据层面飞书官方只提供了23种数据类型&#…

CDGA|解锁数据治理之谜:数据分类分级是关键

在数字化时代,数据已经成为企业运营和社会发展的重要资产。然而,随着数据量的快速增长和复杂性的不断提升,如何有效地管理和利用这些数据成为了一个巨大的挑战。为了解决这个问题,数据治理成为了关键,而在数据治理中&a…

CSS简介与CSS选择器

目录 CSS简介 CSS语法规范 HTML引入CSS的方式 行内样式表 内部样式表 外部样式表 CSS选择器 CSS基础选择器 标签选择器 类选择器 单类名选择器 多类名选择器 id选择器 id选择器的使用 id选择器和类选择器的区别 通配符选择器 基础选择器总结 CSS简介 CSS 是层…

虚拟化与Docker基本概念与Docker的安装

Docker Docker 是一个开源的应用容器引擎,它最初是用 Go 语言开发的。Docker 允许开发者将应用程序及其依赖、库和环境打包到一个可移植的容器中,这个容器可以在任何支持 Docker 的 Linux 或 Windows 机器上运行,保证了应用在不同环境之间的…

简洁易懂递归 | 力扣124.二叉树中的最大路径和

Problem: 124. 二叉树中的最大路径和 文章目录 解题方法复杂度Code 解题方法 递归实现 最大路径和只会出现在以下3种情况: 只取当前节点取当前节点和最大的一个孩子取两个孩子,并以当前节点为根节点(这种无需return给上一层) 递归…