Kafka因文件句柄数过多导致挂掉的排查与解决

news/2025/2/12 19:55:33/

一、问题现象

在k8s集群中部署了多个服务,包括Kafka、TDengine集群和Java等。这些服务使用NFS作为持久化存储方案。最近遇到了一个问题:Kafka频繁报错并最终挂掉。错误日志如下:

2025-02-09T09:39:07,022] INF0 [LogLoader partition=__consumer_offsets-7, dir=/bitnami/kafka/data] producer state recovery took oms 2025-02-09T09:39:07 ERROR Error while loading log dir /bitnami/kafka/data (kafka.log.LogManager) /bitnami/kafka/data/_consumer_offsets-7/00000000000000000000.timeindex (Too many open files in system)

从日志可以看出,Kafka在尝试加载日志目录时遇到Too many open files in system错误,这表明系统中的打开文件句柄数超过了限制。

二、初步排查

(一)检查句柄数限制

  1. 查看当前进程的句柄数限制
    • 使用命令ulimit -n来查看当前用户或进程的最大打开文件数限制。
  2. 检查系统级别的文件句柄使用情况
    • 通过cat /proc/sys/fs/file-nr可以获取系统当前已分配、已使用和最大可用的文件句柄数。

我们发现尽管Kafka已经挂掉,但句柄数占用仍然很大,这意味着可能存在某些资源未被正确释放的情况。

(二)定位占用句柄的进程

由于所有服务都使用了NFS远程挂载,因此怀疑可能是其他服务占用了大量句柄。通过以下步骤进行排查:

  • 在NFS服务器端,遍历各个进程的文件描述符:ls -l /proc/[pid]/fd | wc -l
  • 发现taosd(TDengine的服务进程)存在异常高的文件句柄占用。

三、原因分析与解决方案

经过与TDengine官方团队沟通,得知这是TDengine3.3.2.0的一个已知bug,并建议升级到最新版本3.3.5.2以解决问题。

四、总结与预防措施

(一)总结

本次故障的根本原因是TDengine服务中的一个bug导致其占用了过多的文件句柄,进而影响到了同处于NFS存储上的Kafka服务。通过对日志的详细分析以及对系统资源使用的深入排查,最终确定了问题所在并成功解决了问题。

(二)预防措施

  1. 定期更新组件版本:确保集群中的各个组件保持最新稳定版本,及时应用官方发布的补丁。
  2. 监控系统资源使用:建立完善的监控机制,特别是对于关键资源如文件句柄、内存等的监控,以便提前预警潜在问题。
  3. 优化配置参数:根据实际业务需求合理调整相关服务的配置参数,例如适当增加ulimit值,但需注意不要设置得过高以免引发其他风险。

以上就是关于此次Kafka因文件句柄数过多导致挂掉的问题记录及解决方案分享,希望能给有类似困扰的朋友带来帮助。


http://www.ppmy.cn/news/1571509.html

相关文章

C++ ——从C到C++

1、C的学习方法 (1)C知识点概念内容比较多,需要反复复习 (2)偏理论,有的内容不理解,可以先背下来,后续可能会理解更深 (3)学好编程要多练习,简…

Rust 命令行参数解析:以 minigrep 为例

一、新建项目 和往常一样,我们先用 cargo new minigrep 创建一个新的二进制项目: $ cargo new minigrep $ cd minigrepCargo 自动帮我们生成了一个基础的 src/main.rs 文件,里面有一个简单的 “Hello, world!” 示例。我们会在此文件中编写…

不小心删除服务[null]后,git bash出现错误

不小心删除服务[null]后,git bash出现错误,如何解决? 错误描述:打开 git bash、msys2都会出现错误「bash: /dev/null: No such device or address」 问题定位: 1.使用搜索引擎搜索「bash: /dev/null: No such device o…

Git 的高级配置与优化

引言 在软件开发的广袤世界里,Git 就如同一位忠诚可靠的伙伴,始终陪伴在开发者身边,发挥着无可替代的关键作用。它作为目前最为流行的分布式版本控制系统,以其强大的功能和卓越的灵活性,成为了众多开发者进行代码管理…

手动配置IP

手动配置IP,需要考虑四个配置项: 四个配置项 IP地址、子网掩码、默认网关、DNS服务器 IP地址:格式表现为点分十进制,如192.168.254.1 子网掩码:用于区分网络位和主机位 【子网掩码的二进制表达式一定是连续的&#…

flutter ListView 局部刷新

在 Flutter 中,要仅刷新 ListView 中的某一列(即特定列表项),可以通过以下步骤实现: 核心思路 为每个列表项分配唯一标识(如 Key),帮助 Flutter 识别需要更新的项。 局部状态管理&a…

【Java】多线程和高并发编程(四):阻塞队列(上)基础概念、ArrayBlockingQueue

文章目录 四、阻塞队列1、基础概念1.1 生产者消费者概念1.2 JUC阻塞队列的存取方法 2、ArrayBlockingQueue2.1 ArrayBlockingQueue的基本使用2.2 生产者方法实现原理2.2.1 ArrayBlockingQueue的常见属性2.2.2 add方法实现2.2.3 offer方法实现2.2.4 offer(time,unit)方法2.2.5 p…

《Trustzone/TEE/安全从入门到精通-高配版》

【学习对象】 [行业]:汽车电子、手机、服务器、云计算、物联网、人工智能; [人群]:本科/研究生/博士、初级工程师、中级工程师、资深工程师、行业大佬,即适合小白入门,也适合大佬查缺补漏; [方向]&#…