【大数据学习 | kafka高级部分】kafka的文件存储原理

server/2024/11/14 2:47:15/

在以上部分的讲解中我们知道了，kafka的使用场景就是在流式处理过程中，充当一个中间缓冲介质的作用，主要功能是将数据先放入到kafka中，计算框架会自己拉取要消费和计算的数据过来，采用poll的方式完全适配自身消费速率。那么kafka的存储和hdfs的存储的区别非常清楚的就可以提现出来，hdfs更加适用于整体的存储和取出，kafka主要做的是流，数据都是按照条进行流转的，主打的是灵活和效率，那么效率提现在哪些方面上呢？？？

首先topic是按照分区进行划分的，因为多个分区可以将存储的数据放入到不同的机器节点上，这样起到负载均衡的作用，所以每个broker机器节点上面存储的数据都是多个topic的不同的分区的数据，这样分布式处理可以增加kafka的计算和处理能力

所以broker上面会管理很多topic的不同partition的数据，存储的结构就是以topic-partition方式进行命名的文件夹存储数据，但是随着数据的增加，单个分区的数据也会随之增多，这样管理和检索都在一个文件中也是非常低效率的，解决办法就是单个分区的数据也会切段进行存储，每个段称之为segment。

每一个段称之为一个segement。