实时数据开发 | 怎么通俗理解Flink容错机制,提到的checkpoint、barrier、Savepoint、sink都是什么

ops/2024/11/26 17:42:52/

今天学Flink的关键技术–容错机制,用一些通俗的比喻来讲这个复杂的过程。参考自《离线和实时大数据开发实战》

需要先回顾昨天发的Flink关键概念

检查点(checkpoint)

Flink容错机制的核心是分布式数据流和状态的快照,从而当分布式job由于网络、集群或者任何原因失败时,可以快速从这些分布式快照(检查点checkpoint)中快速恢复,且是轻量级的。

理解思路

Flink容错机制的关键是分组标记栏(barrier)。用河水的例子来简单类比:

  • Storm是一滴一滴地处理数据;
  • SparkStreaming就像水坝一样,一批一批地放水,上一批放的水处理完了,才会放下一批水;
  • Flink的处理方式则更为优雅,它在水中定期地插入barrier,水仍然继续流(所以轻量)只是加了些barrier,如果源头有多个数据流,那么都会同步地增加同样的barrier。

同时在job处理的过程中,为了保证iob失败的时候可以从错误中恢复,Flink还对barrier 进行对齐(align)操作,比如某个operator有多个数据流,那么Flink会等到其多个输入流的同样的barrier 都到了(这就是align的含义),才会将对齐那一刻的状态进行保存,确保出等的时候可以恢复。当然,对齐也是有负面影响的,如果某个源头数据延迟很多,为了对其可能造成任务延迟,对齐是可以根据业务选择关闭的
在这里插入图片描述

详细描述

barrier不会干扰正常数据,数据流分割成两部分,一部分进去当前检查点,一部分进入下一检查点。每个barrier带有检查点ID n,并且之前的数据都进入了这个检查点,检查点中会记录数据的进度信息偏移量分布式job中间的operator会接受这些数据流,当接收到带有检查点n标识的barrier时,会给所有输出流也插入一个标识n的barrier。当sink operator(DAG的终点)接收到所有输入流的barrier n时,确认检查点n 已完成。所有sink都确认检查点n完成,这个检查点才完成。

这个中间的operator,如果有多个输入流,是需要对齐

对齐操作:
  1. 接收到某个输入流的barrier n,就不能继续处理这个输入流后的数据,直到其余流都收到。不然检查点会和下一个混淆
  2. 先不处理barrier n所属的数据流,从这些数据流接收到的数据先放缓冲区
  3. 当从最后一个流提取到barrier n,operator会把等待发送的数据向后传,同时发射检查点n所属的barrier。
    在这里插入图片描述

经过上述步骤,operator恢复所有输入流数据的处理,并优先处理输入缓存中的数据。

保存点(Savepoint)

检查点是由Flink自动管理的,定期创建,发生故障之后自动读取进行恢复,这是一个“自动存盘”的功能;而保存点不会自动创建,必须由用户明确地手动触发保存操作,所以就是“手动存盘”。
场景:

  • 版本管理和归档存储
  • 更新Flink版本
  • 更新应用程序
  • 调整并行度
  • 暂停应用程序

http://www.ppmy.cn/ops/136884.html

相关文章

【git】commit之后,想撤销commit

一、已经commit,想要回退到上一步 保留代码 git reset --soft HEAD^回退到具体的哪一步 HEAD^的意思是上一个版本,也可以写成HEAD~1如果你进行了2次commit,想都撤回,可以使用HEAD~2二、git reflog 查看 sha值 git reflog 回到…

LeetCode—704. 二分查找(简单)

仅供个人学习使用 题目描述: 给定一个 n 个元素有序的(升序)整型数组 nums 和一个目标值 target ,写一个函数搜索 nums 中的 target,如果目标值存在返回下标,否则返回 -1。 示例 1: 输入: nums [-1,0,3…

【cocos creator】下拉框

https://download.csdn.net/download/K86338236/90038176 const { ccclass, property } cc._decorator;type DropDownOptionData {optionString?: string,optionSf?: cc.SpriteFrame } type DropDownItemData {label: cc.Label,sprite: cc.Sprite,toggle: cc.Toggle }cccl…

【Spring Boot】# 使用@Scheduled注解无法执行定时任务

1. 前言 在 Spring Boot中,使用Scheduled注解来定义定时任务时,定时任务不执行;或未在规定时间执行。 import org.springframework.scheduling.annotation.Scheduled; import org.springframework.stereotype.Component;Component public c…

Python 爬虫从入门到(不)入狱学习笔记

爬虫的流程:从入门到入狱 1 获取网页内容1.1 发送 HTTP 请求1.2 Python 的 Requests 库1.2 实战:豆瓣电影 scrape_douban.py 2 解析网页内容2.1 HTML 网页结构2.2 Python 的 Beautiful Soup 库 3 存储或分析数据(略) 一般爬虫的基…

【MATLAB源码-第223期】基于matlab的Massive-MIMO Vblast检测比较,对比ZF ZF-SIC MMSE MMSE-SIC四种算法。

操作环境: MATLAB 2022a 1、算法描述 无线通信系统的发展极大地推动了现代通信技术的进步,从移动通信到无线局域网,甚至是物联网,均依赖于无线通信系统的高效和可靠性。在无线通信系统中,核心目标是实现数据的可靠传…

2024年11月最新版Adobe PhotoShop(26.0)中文版下载

点击下载 Adobe PhotoShop 是一款功能强大的应用程序,已被各种公司、专业艺术家、设计和创作者广泛使用。该程序允许您创建、编辑和合成多层、蒙版和多种颜色模型(包括 RGB、专色、CMYK 等)的光栅图像。 Adobe Adobe PhotoShop 主要功能&…

AIVA 技术浅析(三):如何通过CNN捕捉音乐作品中的细节和模式

为了更深入地理解AIVA(Artificial Intelligence Virtual Artist)如何利用卷积神经网络(CNN)捕捉音乐作品中的细节和模式,并生成高质量的音乐,以下是个人理解与浅析: 1. 数据收集与预处理 1.1 …