flink中barrier不对齐的原因和影响

embedded/2024/11/29 2:44:53/

        Barrier 不对齐(Barrier Misalignment)可能导致一些性能和一致性相关的问题,但 Flink 提供了机制来确保即使在不对齐的情况下,也可以保证数据的一致性。

1. 什么是 Barrier 不对齐?

Barrier 不对齐是指在分布式数据流中,不同输入流上的 Barrier 到达算子的时间不一致。这种情况可能由于以下原因造成:

  • 各个输入流的处理速率不同。
  • 数据分区在网络传输中存在延迟。
  • 部分数据流的处理逻辑更复杂导致处理时间不同。

当 Barrier 不对齐时,某些输入流的 Barrier 可能已经到达算子,而其他输入流上的 Barrier 还未到达。


2. Barrier 不对齐的影响

1. 数据处理的阻塞
在 Flink 的默认实现(对齐检查点模式)中,算子必须等到所有输入流都接收到当前 Barrier 才能继续处理新的 Barrier。这意味着:

  • 快速到达 Barrier 的流会被阻塞,等待其他流的 Barrier。
  • 会导致整体吞吐量下降,特别是在网络或算子处理速度不均衡时。

2. 性能问题
当 Barrier 长时间不能对齐时,处理性能会受到较大影响,尤其是在流量高峰期或复杂拓扑结构中。


3. Flink 能否保证一致性?

即使存在 Barrier 不对齐,Flink 仍然可以保证一致性。具体来说:

1. 对齐检查点(Aligned Checkpointing)
在这种模式下,算子会在所有输入流的 Barrier 到达之前暂停后续处理,并将缓冲的数据存储起来,直到所有 Barrier 对齐。

  • 优点:严格保证一致性(即分布式快照的一致性)。
  • 缺点:可能会因 Barrier 不对齐导致高延迟。

2. 非对齐检查点(Unaligned Checkpointing)
为了优化性能,Flink 1.11 引入了 非对齐检查点(Unaligned Checkpointing)机制。在这种模式下:

  • 不需要等待所有输入流的 Barrier 对齐。
  • 算子会将未对齐的数据缓冲(例如未到达 Barrier 的输入流缓冲区)作为 Checkpoint 的一部分保存下来。
  • 优点:避免了因为对齐等待而导致的高延迟问题,特别适合高吞吐场景。
  • 缺点:Checkpoint 的大小可能会增大,恢复时需要更多的时间来回放数据。

因此,通过非对齐检查点机制,Flink 在性能和一致性之间找到了一种权衡。


4. 总结

  • Barrier 不对齐可能导致处理阻塞,但不会影响 Flink 的一致性。
  • 对齐检查点(默认模式)可以保证一致性,但可能因不对齐而降低性能。
  • 非对齐检查点(Unaligned Checkpointing)在性能和一致性之间做了平衡,能在不对齐情况下仍然保证一致性。
  • 用户可以根据具体场景选择对齐或非对齐模式以优化性能和延迟。

http://www.ppmy.cn/embedded/141327.html

相关文章

金融科技白皮书:2022-2023年度回顾与前瞻

在金融科技领域,2022至2023年见证了一系列创新技术的应用和发展。本白皮书将回顾过去一年的主要成就,并展望未来一年的发展趋势。 2022年亮点回顾 **低代码平台:**低代码平台通过高度抽象化和自动化的可视化过程,简化了应用程序开…

【动态规划入门】【1.2打家劫舍问题】【从记忆化搜索到递推】【灵神题单】【刷题笔记】

LeetCode 198. 打家劫舍 一、题目详情 题目难度:中等 题目描述:你是一个专业的小偷,计划偷窃沿街的房屋。每间房内都藏有一定的现金,影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统,如果两间相邻的…

PICO VR串流调试Unity程序

在平时写Unity的VR程序的时候,需要调试自己写的代码,但是有的时候会发现场景过于复杂,不是HMD一体机能运行的,或者为了能够更方便的调试,不需要每次都将程序部署到眼睛里,这样非常浪费时间,对于…

区块链学习笔记(1)--区块、链和共识 区块链技术入门

常见的hash算法: 文件防篡改:MD5比特币挖矿:SHA256证明数据片段:Merkle root文本去重:SimHash 区块 区块(block)由区块头(block header)和交易列表(transac…

Redis1——基本命令及原理

文章目录 Redis1——基本命令及原理1. Redis原理1.1 特点1.2 数据类型及其存储方式1.2.1 **string** 字符串1.2.2 **list** 列表1.2.3 **hash** 哈希表1.2.4 **set** 集合1.2.5 **zset** 有序集合 2. 基本命令及应用场景:2.1 Redis应用场景2.2 string——sds动态字符…

Fink的安装与入门

finl是做流式计算的大数据工具 官网:Apache Flink Documentation | Apache Flink Flink官方提供了Java、Scala、Python语言接口用以开发Flink应用程序 Fink的应用场景: Standalone集群模式安装部署 Flink支持多种安装模式。 local(本地&am…

电子电气架构 --- 企业级别的诊断需求规范应该有哪些?

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 所有人的看法和评价都是暂时的,只有自己的经历是伴随一生的,几乎所有的担忧和畏惧,都是来源于自己的想象,只有你真的去做了,才会发现有多快乐。…

如何使用docker启动一个gitlab

1. 下载ce版本镜像 gitlab/gitlab-ce:17.3.6-ce.0 2. 创建相关目录 /home/lylgitlab/config/home/lylgitlab/logs/home/lylgitlab/data/home/lylgitlab/other/gitlab.rb/home/lylgitlab/other/shm 3. 启动镜像 #!/bin/shdocker run --detach \--hostname 20.198.40.20 \-p …