Flink的架构体系

ops/2024/12/12 22:05:56/

Flink中的重要角⾊

  • JobManager处理器

JobManager处理器也称之为Master,用于协调分布式执行,它们用来调度task,协调检查点,协调失败时恢复等。Flink运行时至少存在一个master处理器,如果配置高可用模式则会存在多个master处理器,它们其中有一个是leader,而其他的都是standby。

  • TaskManager处理器

TaskManager处理器也称之为Worker,用于执行一个dataflow的task(或者特殊的subtask)、数据缓冲和data stream的交换,Flink运行时至少会存在一个worker处理器。

  • Slot 任务执行槽位:

物理概念,一个TM(TaskManager)内会划分出多个Slot,1个Slot内最多可以运行1个Task(Subtask)或一组由Task(Subtask)组成的任务链。(类似于 Container)

多个Slot之间会共享平分当前TM的内存空间。Slot是对一个TM的资源进行固定分配的工具,每个Slot在TM启动后,可以获得固定的资源。比如1个TM是一个JVM进程,如果有6个Slot,那么这6个Slot平分这一个JVM进程的资源,但是因为在同一个进程内,所以线程之间共享TCP连接、内存数据等,效率更高(Slot之间交流方便)。

  • Task:

任务,每一个Flink的Job会根据情况(并行度、算子类型)将一个整体的Job划分为多个Task。

  • Subtask:

子任务,一个Task可以由一个或者多个Subtask组成。一个Task有多少个Subtask取决于这个Task的并行度,也就是,每一个Subtask就是当前Task任务并行的一个线程。如,当前Task并行度为8,那么这个Task会有8个Subtask(8个线程并行执行这个Task)。

一个 wordCount 是一个 job,每一个 job 根据算子,切成多个任务 Task ,而每一个 taks 都是并行执行的,有多少个并行度,就启动多少个子任务。

  • 并行度:

并行度就是一个Task可以分成多少个Subtask并行执行的一个参数。这个参数是动态的,可以在任务执行前进行分配,而非Slot分配,TM启动就固定了。

一个Task可以获得的最大并行度取决于整个Flink环境的可用Slot数量,也就是如果有8个Slot,那么最大并行度也就是8,设置的再大也没有意义(还报错)。

假如你只有6个槽,并行度设置为8,启动一会儿之后会报错,启动任务失败,报错如下:

集群中槽的数量虽然是手动设置的,但是也不能超过集群中的 CPU 总核数。

如下图:

  • 一个Job分为了3个Task来运行,分别是TaskA TaskB TaskC
  • 其中TaskA设置为了6个并行度,也就是TaskA可以有6个Subtask,如图可见,TaskA的6个Subtask各自在一个Slot内执行
  • 其中在Slot的时候说过,Slot可以运行由Task(或Subtask)组成的任务链,如图可见,最左边的Slot运行了TaskA TaskB TaskC 3个Task各自的1个Subtask组成的一个Subtask执行链

并行度是一个动态的概念,可以在多个地方设置并行度:【重要】

  • 配置文件默认并行度:conf/flink-conf.yaml的parallelism.default
  • 启动Flink任务,动态提交参数:比如:bin/flink run -p 3 xxx.jar
  • 在代码中设置全局并行度:env.setParallelism(3);
  • 针对每个算子进行单独设置:sum(1).setParallelism(3)

优先级:算子 > 代码全局 > 命令行参数 > 配置文件


http://www.ppmy.cn/ops/141354.html

相关文章

代码随想录打卡Day46

647.回文子串 题目描述: 给你一个字符串 s ,请你统计并返回这个字符串中 回文子串 的数目。 回文字符串 是正着读和倒过来读一样的字符串。 子字符串 是字符串中的由连续字符组成的一个序列。 示例 1: 输入:s "abc&quo…

【学习笔记】目前市面中手持激光雷达设备及参数汇总

手持激光雷达设备介绍 手持激光雷达设备是一种利用激光时间飞行原理来测量物体距离并构建三维模型的便携式高科技产品。它通过发射激光束并分析反射回来的激光信号,能够精确地获取物体的三维结构信息。这种设备以其高精度、适应各种光照环境的能力和便携性&#xf…

聚类及Python下实现 K-means 算法

聚类 聚类是无监督学习中的一种重要方法,旨在将数据集中相似的数据对象划分到同一个簇中,使得不同簇之间的数据对象差异尽可能大。在大数据环境下,聚类可以帮助挖掘数据中的隐藏结构和模式,应用场景十分广泛,比如在客…

PyCharm文件、临时文件、目录、文件夹(Directory)、软件包(Package)的区别

首先是目录(Directory)文件夹是一样的,只是叫法不一样 软件包它是一个包含多个模块(.py文件)的目录,并且这个目录中必须包含一个特殊的文件__init__.py 从功能角度看,软件包提供了一种命名空间的机制。这意…

CPP项目推荐:协程库项目

星球里的协程库项目正式做了第二版更新: 更新后的协程库项目代码开源的Github上:https://github.com/youngyangyang04/coroutine-lib 大家可以自己学习,也欢迎star、fork 目前知识星球里已经更新 6个CPP项目、2个Java项目、两个前端、一个G…

Spring Boot性能提升:实战案例分析

引言 随着微服务架构的流行,Spring Boot因其轻量级和快速开发周期而受到开发者的青睐。然而,随着应用规模的增大和复杂度的提升,如何优化Spring Boot应用的性能成为了开发者关注的焦点。本文将从实战案例出发,探讨Spring Boot性能…

Spring Boot日志:从Logger到@Slf4j的探秘

写在前面 Hello大家好,今日是2024年的第一天,祝大家元旦快乐?? 2024第一篇文章从SpringBoot日志开始 文章目录 一、前言二、日志有什么用?三、日志怎么用?四、自定义日志打印 ?? 常见日志框架说明4.1 在程序中得到?志对象【…

Redisson分布式锁

官方文档:Redisson参考指南 分布式锁案例 RLock lock redissonClient.getLock("test_lock"); lock.lock(); try {log.info("lock success");Thread.sleep(10000); } catch (InterruptedException e) {e.printStackTrace(); } finally {lock.u…