Kafka常见问题之 java.io.IOException: Disk error when trying to write to log

devtools/2025/2/3 9:26:20/

文章目录

  • Kafka常见问题之 java.io.IOException: Disk error when trying to write to log
  • 1. 问题概述
  • 2. 问题排查方向
    • (1)磁盘空间不足
    • (2)磁盘 I/O 故障
    • (3)Kafka 日志文件损坏
    • (4)Kafka 进程权限不足
    • (5)Kafka 配置错误
  • 3. 案例分析
    • 案例 1:磁盘满导致 Kafka 崩溃
    • 案例 2:磁盘 I/O 过载导致 Kafka 失败
    • 案例 3:Kafka 无法写入日志

javaioIOException_Disk_error_when_trying_to_write_to_log_1">Kafka常见问题之 java.io.IOException: Disk error when trying to write to log

1. 问题概述

在 Kafka Broker 运行时,可能会遇到以下错误:

java.io.IOException: Disk error when trying to write to logat org.apache.kafka.common.errors.KafkaStorageException

这个错误表明 Kafka 在 写入日志文件 时遇到了 磁盘错误,通常出现在 Kafka Broker 端

2. 问题排查方向

(1)磁盘空间不足

Kafka 需要足够的磁盘空间存储日志,如果磁盘已满,Kafka 无法写入日志,会报此错误。

如何检查磁盘空间?

df -h

示例输出:

Filesystem      Size  Used Avail Use% Mounted on
/dev/sda1       50G   50G   0G   100% /

这里 磁盘已满(100%),Kafka 无法写入。

解决方案
方法 1:清理 Kafka 过期日志

kafka-configs.sh --alter --zookeeper localhost:2181 --entity-type topics --entity-name my-topic --add-config retention.ms=3600000

这会将 my-topic 的日志保留时间缩短到 1 小时

方法 2:删除过期日志

rm -rf /var/lib/kafka-logs/*

方法 3:扩容磁盘
如果空间不足,考虑 增加磁盘更改 Kafka 日志目录

log.dirs=/new/path/to/kafka/logs

然后重启 Kafka:

bin/kafka-server-stop.sh
bin/kafka-server-start.sh -daemon config/server.properties

(2)磁盘 I/O 故障

如果磁盘发生硬件故障或 Kafka 进程 无权限 访问磁盘,也会导致此错误。

如何检查磁盘 I/O 状态?

iostat -x 1 10

如果 %iowait 非常高,说明磁盘 I/O 过载,Kafka 可能因为磁盘压力导致失败。

解决方案

  • 更换磁盘检查磁盘 SMART 状态
    smartctl -a /dev/sdX
    
  • 检查 Kafka 日志路径是否可写:
    ls -ld /var/lib/kafka-logs
    chown -R kafka:kafka /var/lib/kafka-logs
    chmod -R 755 /var/lib/kafka-logs
    

(3)Kafka 日志文件损坏

如果 Kafka 日志文件损坏,Broker 可能无法写入,导致 IOException

如何检查日志文件?

ls -lh /var/lib/kafka-logs

如果 Kafka 日志 异常大损坏(corrupt),需要修复。

解决方案

  • 手动删除损坏日志
    rm -rf /var/lib/kafka-logs/*
    
  • 启用 unclean leader election,防止副本同步异常
    unclean.leader.election.enable=true
    
  • 强制格式化 Kafka 存储
    bin/kafka-storage.sh format -t <cluster-id> -c config/kraft/server.properties
    
    ** 注意**:此操作会删除所有 Kafka 数据,仅在不可恢复时使用。

(4)Kafka 进程权限不足

如果 Kafka 没有足够权限 写入日志目录,也会触发 IOException

如何检查 Kafka 进程用户?

ps -ef | grep kafka

示例输出:

kafka     12345  1  0 10:00 ?        00:00:00 /usr/bin/java -jar kafka.jar

如果 Kafka 进程是 kafka 用户运行,确保它有写入权限:

ls -ld /var/lib/kafka-logs

示例输出:

drwxr-xr-x  2 root root 4096 Jan 30 10:00 /var/lib/kafka-logs

如果 Kafka 无法写入,执行:

chown -R kafka:kafka /var/lib/kafka-logs
chmod -R 755 /var/lib/kafka-logs

然后重启 Kafka:

systemctl restart kafka

(5)Kafka 配置错误

如果 Kafka 配置了 错误的 log.dirs 路径,可能会导致 Disk error

检查 Kafka 日志路径
查看 server.properties

log.dirs=/var/lib/kafka-logs

确保这个目录 存在且可写

mkdir -p /var/lib/kafka-logs
chown -R kafka:kafka /var/lib/kafka-logs
chmod -R 755 /var/lib/kafka-logs

3. 案例分析

案例 1:磁盘满导致 Kafka 崩溃

现象

  • server.log 出现 Disk error when trying to write to log
  • df -h 显示磁盘已满

解决方案

  1. 清理过期日志:
    rm -rf /var/lib/kafka-logs/*
    
  2. 限制 Kafka 日志大小:
    retention.bytes=1073741824  # 1GB
    retention.ms=86400000  # 1天
    

案例 2:磁盘 I/O 过载导致 Kafka 失败

现象

  • Kafka 频繁崩溃,iostat 显示 %iowait 过高

解决方案

  1. 更换 SSD,提高磁盘吞吐量。
  2. 限制 Kafka 负载:
    num.partitions=3
    log.segment.bytes=536870912  # 512MB
    log.flush.interval.messages=10000
    

案例 3:Kafka 无法写入日志

现象

  • server.log 显示 Permission denied

解决方案

  1. 修复 Kafka 目录权限:
    chown -R kafka:kafka /var/lib/kafka-logs
    chmod -R 755 /var/lib/kafka-logs
    

http://www.ppmy.cn/devtools/155675.html

相关文章

Elasticsearch的索引生命周期管理

目录 说明零、参考一、ILM的基本概念二、ILM的实践步骤Elasticsearch ILM策略中的“最小年龄”是如何计算的&#xff1f;如何监控和调整Elasticsearch ILM策略的性能&#xff1f; 1. **监控性能**使用/_cat/thread_pool API基本请求格式请求特定线程池的信息响应内容 2. **调整…

【背包问题】二维费用的背包问题

目录 二维费用的背包问题详解 总结&#xff1a; 空间优化&#xff1a; 1. 状态定义 2. 状态转移方程 3. 初始化 4. 遍历顺序 5. 时间复杂度 例题 1&#xff0c;一和零 2&#xff0c;盈利计划 二维费用的背包问题详解 前面讲到的01背包中&#xff0c;对物品的限定条件…

【llm对话系统】大模型源码分析之llama模型的long context更长上下文支持

1. 引言 Llama模型的一个重要特性是支持长上下文处理。本文将深入分析Llama源码中实现长上下文的关键技术点&#xff0c;包括位置编码(position embedding)的外推方法、注意力机制的优化等。我们将通过详细的代码解析来理解其实现原理。 2. 位置编码的外推实现 2.1 旋转位置…

【python】python油田数据分析与可视化(源码+数据集)【独一无二】

&#x1f449;博__主&#x1f448;&#xff1a;米码收割机 &#x1f449;技__能&#x1f448;&#xff1a;C/Python语言 &#x1f449;专__注&#x1f448;&#xff1a;专注主流机器人、人工智能等相关领域的开发、测试技术。 【python】python油田数据分析与可视化&#xff08…

【Qt】Qt老版本解决中文乱码

修改Pro文件 Qt 老版本&#xff08;Qt5 MSVC2017&#xff0c;其他版本的可以试一试&#xff09;出现中文乱码&#xff0c;只要字符串中有中文就会乱码&#xff1a; 工具->选项->文本编辑器: 修改Pro文件 以上修改后若还乱码&#xff0c;则在项目中的 .pro 文件添加以…

网络爬虫技术如何影响网络安全的

随着网络的发展和网络爬虫技术的普及&#xff0c;一些人收集某些需要的信息&#xff0c;会使用网络爬虫进行数据抓取。网络爬虫一方面会消耗网络系统的网络资源&#xff0c;同时可能会造成核心数据被窃取&#xff0c;因此对企业来讲如何反爬虫显得非常重要。 一、什么是网络爬…

JVM_程序计数器的作用、特点、线程私有、本地方法的概述

①. 程序计数器 ①. 作用 (是用来存储指向下一条指令的地址,也即将要执行的指令代码。由执行引擎读取下一条指令) ②. 特点(是线程私有的 、不会存在内存溢出) ③. 注意:在物理上实现程序计数器是在寄存器实现的,整个cpu中最快的一个执行单元 ④. 它是唯一一个在java虚拟机规…

FIR滤波器:窗函数法

一、FIR滤波器基础 FIR&#xff08;有限脉冲响应&#xff09;滤波器的三大特点&#xff1a; 绝对稳定&#xff1a;没有反馈回路&#xff0c;不会出现失控振荡 线性相位&#xff1a;信号通过后波形不失真 直观设计&#xff1a;通过窗函数法、频率采样法等方法实现 二、窗函…