实时数据开发 | Flink反压机制原因、影响及解决方案

ops/2024/11/28 14:47:56/

今天是很忙碌的一天哦,有两个业务在催着验收,终于21:45卡点交上去了。
明早再修修补补一下应该就可以开始做实时方面的需求了,小紧张,
今天同事在同步会上讲这块业务的数据流时就提到了checkpoint和savepoint还有流处理的其他概念,多亏了这几天的学习,在脑海里已经有初步理解了不至于摸不着头脑。有一种上学时候预习到的的课本被老师提到的感觉哈哈哈。

速速开始今天的学习内容,讲Flink的反压机制。


反压是流式系统中关于处理能力的动态反馈机制,并且是从下游到上游的反馈。

正如之前介绍的,反压通常是由于某段时间内源头数据量暴涨,导致流任务处理数据的速度远远小于源头数据的流入速度。这种场景如果没有得到合适的处理,流任务的内存会越积越大,可能导致资源耗尽甚至系统崩溃

反压原因

  1. 数据倾斜:数据分布不均,导致个别task处理数据过多。
  2. 算子性能问题:可能某个节点逻辑很复杂,如sink节点很慢或lookup join热查询慢等。
  3. 流量陡增:如大促时流量激增,或者使用了数据炸开的函数。

反压影响

  • 任务处理性能出现瓶颈
  • Checkpoint时间长或失败(某些反压会导致barrier需要花很长时间才能对齐,影响任务的稳定性)
  • State状态变大/堆积
  • Kafka数据积压
  • OOM(内存溢出)

不同流计算引擎的处理方式

对于不同的流计算引擎,处理方式是不一样的:

  • Storm是通过监控processbolt中的接收队列负载情况来处理反压,如果超过高水位值,就将反压信息写到ZooKeeper,由ZooKeeper上的watch通知该拓扑的所有worker都进入反压状态,最后spout停止发送tuple 来处理的。
  • Spark Streaming通过设置属性“spark.streaming.backpressure.enabled可以自动进行反压处理,它会动态控制数据接收速率来适配集群数据处理能力。
  • 对于Flink来说,不需要进行任何的特殊设置,其本身的纯数据流引擎可以非常优雅地处理反压问题。
    在Flink中,每个组件都有对应的分布式阻塞队列,只有队列不满的情况下,上游才能向下发送数据,因此较慢的接收者会自动降低发送者的发送速率,因为一旦队列满了(有界队列),发送者会被阻塞

常见处理方案

  1. 很多时候反压就是资源不足导致的,给任务加资源:CPU资源、内存资源、其他资源
  2. 定位为数据倾斜、算子性能问题之类,就去解决这些问题
  3. 流量过大消费不过来,就调大并行度
  4. 限流与缓冲,限制数据源的消费数据速度。
    Flink通过水位线(Watermark)机制来实现限流。水位线是一个时间戳,表示当前处理的数据已经到达的位置。通过控制水位线的传播速度,Flink可以限制数据的流量,避免数据的堆积和延迟。当下游节点处理速度较慢时,水位线的传播速度会相应减慢,从而限制上游节点的生产速度。
    比如在事件时间窗口的应用中,可以自己设置在数据源处加一些限流措施,让每个数据源都能够够匀速消费数据,避免出现有的 Source 快,有的 Source 慢,导致窗口 input pool 打满,watermark 对不齐导致任务卡住
  5. 关闭 Checkpoint。关闭 Checkpoint 可以将 barrier 对齐这一步省略掉,促使任务能够快速回溯数据。然后等数据回溯完成之后,再将 Checkpoint 打开

http://www.ppmy.cn/ops/137379.html

相关文章

【前端】JavaScript中的字面量概念与应用详解

博客主页: [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: 前端 文章目录 💯前言💯字面量1. 数字字面量2. 字符串字面量3. 布尔字面量4. 空值字面量(null)5. 对象字面量6. 数组字面量7. 正则表达式字面量8. 特殊值字面量9. 函数字…

Windows修复SSL/TLS协议信息泄露漏洞(CVE-2016-2183) --亲测

漏洞说明: 打开链接:https://docs.microsoft.com/zh-cn/troubleshoot/windows-server/windows-security/restrict-cryptographic-algorithms-protocols-schannel 可以看到: 找到:应通过配置密码套件顺序来控制 TLS/SSL 密码 我们…

docker安装mysql

1.拉取mysql镜像 docker pull mysql:5.7 2.启动mysql容器 docker run -d -e MYSQL_ROOT_PASSWORD123456 -e MYSQL_TCP_PORT3307 -p 3307:3307 -v /SDXL/wjz/docker_mysql_log:/var/log/mysql -v /SDXL/wjz/docker_mysql_data:/var/lib/mysql -v /SDXL/wjz/docker_mysql_conf:/e…

「Mac玩转仓颉内测版32」基础篇12 - Cangjie中的变量操作与类型管理

本篇将深入探讨 Cangjie 编程语言中的变量操作与类型管理,涵盖变量的定义、作用域、类型推断、常量、变量遮蔽、类型转换等方面的知识。通过这些概念的学习,开发者将更好地理解和灵活掌握变量的使用与管理技巧。 关键词 变量定义类型推断常量变量作用域…

一个简单的ASP.NET 一致性返回工具库

本文主要介绍了 Sang.AspNetCore.CommonLibraries 这个 ASP.NET 通用库,它目前提供了一致性返回和简单提示页面的功能,旨在简化开发工作,提高代码的复用性和可维护性。 1. 介绍 Sang.AspNetCore.CommonLibraries 是一个为 ASP.NET Core 提供…

后端并发编程操作简述 Java高并发程序设计 六类并发容器 七种线程池 四种阻塞队列

目录 并发集合 1. ConcurrentHashMap: 2. CopyOnWriteArrayList: 3. CopyOnWriteArraySet: 4. BlockingQueue系列: 5. ConcurrentSkipListMap 和 ConcurrentSkipListSet: 6. ConcurrentLinkedDeque:…

RabbitMQ高级特性:TTL、死信队列与延迟队列

RabbitMQ高级特性:TTL、死信队列与延迟队列 RabbitMQ作为一款开源的消息代理软件,广泛应用于分布式系统中,用于实现消息的异步传递和系统的解耦。其强大的高级特性,包括TTL(Time-To-Live)、死信队列&#…

第二十二周周报:Stable Diffusion

目录 摘要 Abstract 1. Stable Diffusion 1.1 CLIP 1.2 U-Net 1.3 VAE 1.4 图像生成测试 2. LoRA 总结 摘要 Stable Diffusion是一种深度学习模型,专门设计用于生成高质量的图像。该模型结合了扩散模型和Transformer架构的特点,通过文本处理、…