kafka处理大量消息积压tips —— 筑梦之路

news/2025/2/14 6:12:14/

一、consumer导致kafka积压了大量消息

场景:
1. 如果是Kafka消费能力不足,则可以考虑增加 topic 的 partition 的个数,
同时提升消费者组的消费者数量,消费数 = 分区数 (二者缺一不可)

2. 若是下游数据处理不及时,则提高每批次拉取的数量。批次拉取数量过少
(拉取数据/处理时间 < 生产速度),使处理的数据小于生产的数据,也会造成数据积压。

方法:

1. 增大partion数量,
2. 消费者加了并发,服务, 扩大消费线程
3. 增加消费组服务数量
4. kafka单机升级成了集群
5. 避免消费者消费消息时间过长,导致超时
6. 使Kafka分区之间的数据均匀分布

二、消息过期失效

产生消息堆积,消费不及时,kafka数据有过期时间,一些数据就丢失了,主要是消费不及时

经验

1. 消费kafka消息时,应该尽量减少每次消费时间,可通过减少调用三方接口、读库等操作,
从而减少消息堆积的可能性。
2. 如果消息来不及消费,可以先存在数据库中,然后逐条消费
(还可以保存消费记录,方便定位问题)
3. 每次接受kafka消息时,先打印出日志,包括消息产生的时间戳。
4. kafka消息保留时间(修改kafka配置文件, 默认一周)
5. 任务启动从上次提交offset处开始消费处理

三、综上使用kafka注意事项

1. 由于Kafka消息key设置,在Kafka producer处,给key加随机后缀,使其均衡
2. 数据量很大,合理的增加Kafka分区数是关键。
Kafka分区数是Kafka并行度调优的最小单元,如果Kafka分区数设置的太少,
会影响Kafka consumer消费的吞吐量. 如果利用的是Spark流和Kafka direct approach方式,
也可以对KafkaRDD进行repartition重分区,增加并行度处理.


http://www.ppmy.cn/news/1288878.html

相关文章

为即将到来的量子攻击做好准备的 4 个步骤

当谈到网络和技术领域时&#xff0c;一场风暴正在酝酿——这场风暴有可能摧毁我们数字安全的根本结构。这场风暴被称为 Q-Day&#xff0c;是即将到来的量子计算时代的简写&#xff0c;届时量子计算机的功能将使最复杂的加密算法变得过时。 这场量子革命正以惊人的速度到来&am…

Linux环境安装2

1 redis单机版安装 1.1 安装 wget http://downloads.sourceforge.net/tcl/tcl8.6.1-src.tar.gz tar -xzvf tcl8.6.1-src.tar.gz cd /usr/local/tcl8.6.1/unix/ ./configure make && make install使用redis-3.2.8.tar.gz&#xff08;截止2017年4月的最新稳定版&…

openCv读取外网URL链接图片

安装指定库 要使用OpenCV读取URL链接中的图像&#xff0c;你可以使用urllib库下载图像&#xff0c;并使用OpenCV对其进行处理。以下是一个简单的例子&#xff1a; 首先&#xff0c;确保你已经安装了OpenCV和urllib库&#xff0c;终端执行下面语句。 pip install opencv-pytho…

堆排序(C语言版)

一.堆排序 堆排序即利用堆的思想来进行排序&#xff0c;总共分为两个步骤&#xff1a; 1. 建堆 升序&#xff1a;建大堆 降序&#xff1a;建小堆 2. 利用堆删除思想来进行排序 1.1.利用上下调整法实现堆排序 第一步&#xff1a;建堆 好了&#xff0c;每次建堆都要问自己…

Embedding模型在大语言模型中的重要性

引言 随着大型语言模型的发展&#xff0c;以ChatGPT为首&#xff0c;涌现了诸如ChatPDF、BingGPT、NotionAI等多种多样的应用。公众大量地将目光聚焦于生成模型的进展之快&#xff0c;却少有关注支撑许多大型语言模型应用落地的必不可少的Embedding模型。本文将主要介绍为什么…

JVM内存区域与常见问题

内存结构 这里先以JDK1.8 hotspot垃圾收集器为例&#xff0c;讲讲每块区域存储的数据以及可能会抛的异常。 堆 存放对象实例&#xff0c;会出现内存溢出或内存泄露等情况。 栈 一次方法调用会产生一个栈帧&#xff0c;如果出现递归死循环调用栈空间满了&#xff0c;会出现…

计算字符串的长度几种方法 | 递归 | 指针减指针 | 计数器 | C语言 | 详解 | 期末考试必看!!!

一&#xff0c;使用 递归 计算 字符串 的 长度 1&#xff0c;题目描述 2&#xff0c;分析题目 Ⅰ&#xff0c;题目中要求除了函数的形参&#xff0c;函数中不能够使用多余的变量&#xff08;这是比较苛刻的要求&#xff09;。 Ⅱ&#xff0c;根据此&#xff0c;很自然的…

论文解读:A New CNN Building Block for Low-ResolutionImages and Small Objects

引言 之前通过stride和pooling这些下采样操作&#xff0c;但是这些操作都会或多或少丢失图像的信息&#xff0c;所以这不适用于具有低分辨率图像和小物体的更困难的任务上。像池化选择maxpooling或者是averagepooling、卷积的步长(太大的话会丢失信息)都是很头疼的问题&#x…