kafka夺命连环三十问（16-22）

news/2024/11/14 4:57:38/

16、kafka是如何做到高效读写

1，kafka本身是分布式集群，可以采用分区技术，并行度高

2，读数据采用稀疏索引，可以快速定位要消费的数据

3，顺写磁盘

4，页缓存+零拷贝技术

17、Kafka集群中数据的存储是按照什么方式存储的？

Kafka使用自己的文件存储系统来存储消息。每个分区的数据被存储在一系列文件中，这些文件被称为segment。每个segment包含一个.log文件和一个.index文件。.log文件存储消息的二进制数据，而.index文件存储消息的索引信息，用于快速定位消息。

18、kafka中是如何快速定位到一个offset的。

在kafka中要快速定位一个offset主要依赖于其稀疏索引机制，当需要读取特定offset的数据时，先通过稀疏索引确定数据所在的segment范围，然后在该segment内进一步查找

19、简述kafka中的数据清理策略。

1，基于时间的数据清理

2，基于大小的数据清理

3，日志清理策略

kafka提供了两种日志清理策略：delete和compact

一种是基于时间的，另外一种是基于大小

1，delete它会删除所有过期的数据，如果segment中既有过期数据也有未过期数据，kafka会保留未过期的数据，删除过期的部分，这样可以保证数据的完整性

2，compact 日志压缩(合并的意思，不是真的压缩)

compact日志压缩：对于相同key的不同value值，只保留最后一个版本。

4，日志清理的触发