实时数据开发 | Flink反压机制原因、影响及解决方案

news/2024/11/30 9:04:52/

今天是很忙碌的一天哦,有两个业务在催着验收,终于21:45卡点交上去了。
明早再修修补补一下应该就可以开始做实时方面的需求了,小紧张,
今天同事在同步会上讲这块业务的数据流时就提到了checkpoint和savepoint还有流处理的其他概念,多亏了这几天的学习,在脑海里已经有初步理解了不至于摸不着头脑。有一种上学时候预习到的的课本被老师提到的感觉哈哈哈。

速速开始今天的学习内容,讲Flink的反压机制。


反压是流式系统中关于处理能力的动态反馈机制,并且是从下游到上游的反馈。

正如之前介绍的,反压通常是由于某段时间内源头数据量暴涨,导致流任务处理数据的速度远远小于源头数据的流入速度。这种场景如果没有得到合适的处理,流任务的内存会越积越大,可能导致资源耗尽甚至系统崩溃

反压原因

  1. 数据倾斜:数据分布不均,导致个别task处理数据过多。
  2. 算子性能问题:可能某个节点逻辑很复杂,如sink节点很慢或lookup join热查询慢等。
  3. 流量陡增:如大促时流量激增,或者使用了数据炸开的函数。

反压影响

  • 任务处理性能出现瓶颈
  • Checkpoint时间长或失败(某些反压会导致barrier需要花很长时间才能对齐,影响任务的稳定性)
  • State状态变大/堆积
  • Kafka数据积压
  • OOM(内存溢出)

不同流计算引擎的处理方式

对于不同的流计算引擎,处理方式是不一样的:

  • Storm是通过监控processbolt中的接收队列负载情况来处理反压,如果超过高水位值,就将反压信息写到ZooKeeper,由ZooKeeper上的watch通知该拓扑的所有worker都进入反压状态,最后spout停止发送tuple 来处理的。
  • Spark Streaming通过设置属性“spark.streaming.backpressure.enabled可以自动进行反压处理,它会动态控制数据接收速率来适配集群数据处理能力。
  • 对于Flink来说,不需要进行任何的特殊设置,其本身的纯数据流引擎可以非常优雅地处理反压问题。
    在Flink中,每个组件都有对应的分布式阻塞队列,只有队列不满的情况下,上游才能向下发送数据,因此较慢的接收者会自动降低发送者的发送速率,因为一旦队列满了(有界队列),发送者会被阻塞

常见处理方案

  1. 很多时候反压就是资源不足导致的,给任务加资源:CPU资源、内存资源、其他资源
  2. 定位为数据倾斜、算子性能问题之类,就去解决这些问题
  3. 流量过大消费不过来,就调大并行度
  4. 限流与缓冲,限制数据源的消费数据速度。
    Flink通过水位线(Watermark)机制来实现限流。水位线是一个时间戳,表示当前处理的数据已经到达的位置。通过控制水位线的传播速度,Flink可以限制数据的流量,避免数据的堆积和延迟。当下游节点处理速度较慢时,水位线的传播速度会相应减慢,从而限制上游节点的生产速度。
    比如在事件时间窗口的应用中,可以自己设置在数据源处加一些限流措施,让每个数据源都能够够匀速消费数据,避免出现有的 Source 快,有的 Source 慢,导致窗口 input pool 打满,watermark 对不齐导致任务卡住
  5. 关闭 Checkpoint。关闭 Checkpoint 可以将 barrier 对齐这一步省略掉,促使任务能够快速回溯数据。然后等数据回溯完成之后,再将 Checkpoint 打开

http://www.ppmy.cn/news/1551153.html

相关文章

深入讲解Spring Boot和Spring Cloud,外加图书管理系统实战!

很抱歉,我的疏忽,说了这么久还没有给大家详细讲解过Spring Boot和Spring Cloud,那今天给大家详细讲解一下。 大家可以和下面这三篇博客一起看: 1、Spring Boot 和 Spring Cloud 微服务开发实践详解https://blog.csdn.net/speaking_me/artic…

Vite 6 正式发布

11 月 26 日,Vite 6.0 正式发布。自一年前 Vite 5 发布以来,Vite 的采用率持续增长,每周 npm 下载量已从 750 万次跃升至 1700 万次。与此同时,Vitest 不仅越来越受到用户的青睐,并开始逐步建立起属于自己的生态系统。…

MySQL隐式转换造成索引失效

一、什么是 MySQL 的隐式转换? MySQL 在执行查询语句时,有时候会自动帮我们进行数据类型的转换,这个过程就是隐式转换。比如说,我们在一个 INT 类型的字段上进行查询,但是传入的查询条件却是字符串类型的值&#xff0c…

pageoffice最新版本浏览器点击没反应解决办法

一、问题现象 最新版本的谷歌、火狐浏览器,调用pageoffice时,点击后没反应(旧的谷歌浏览器不受影响)。 二、产生原因 服务器返回pageOffice的客户端唤起链接格式为: PageOffice://|http://192.168.1.120:8080/xxx …

2023年MathorCup高校数学建模挑战赛—大数据竞赛A题基于计算机视觉的坑洼道路检测和识别求解全过程文档及程序

2023年MathorCup高校数学建模挑战赛—大数据竞赛 A题 基于计算机视觉的坑洼道路检测和识别 原题再现: 坑洼道路检测和识别是一种计算机视觉任务,旨在通过数字图像(通常是地表坑洼图像)识别出存在坑洼的道路。这对于地质勘探、航天科学和自然灾害等领域…

芯盾时代的身份安全产品体系

芯盾时代具备全栈零信任身份安全产品和服务能力: 芯盾时代IAM能够适配大企业用户复杂的应用访问需求,提供云端、互联网端、企业内网全场景的身份访问安全接入能力; 芯盾时代IAM能够理解大企业用户的身份差异,为内部用户、合作方和…

免费实用在线AI工具集合 - 加菲工具

免费在线工具-加菲工具 https://orcc.online/ sql格式化 https://orcc.online/tools/sql 时间戳转换 https://orcc.online/tools/timestamp Base64 编码解码 https://orcc.online/tools/base64 URL 编码解码 https://orcc.online/tools/url Hash(MD5/SHA1/SHA256…) 计算 h…

dns 服务器简单介绍

dns 服务器分类: 根域名服务器顶级域名服务器权威域名服务器本地域名服务器 dns 的查询过程 国内优秀公共域名 腾讯:DNSPod-免费智能DNS解析服务商-电信_网通_教育网,智能DNS-烟台帝思普网络科技有限公司 119.29.29.29 和 182.254.118.118 阿里&#xf…