Kafka 什么速度那么快

news/2024/12/4 23:33:21/

批量发送消息

Kafka 采用了批量发送消息的方式,通过将多条消息按照分区进行分组,然后每次发送一个消息集合,看似很平常的一个手段,其实它大大提升了 Kafka 的吞吐量。

消息压缩

消息压缩的目的是为了进一步减少网络传输带宽。而对于压缩算法来说,通常是数据量越大,压缩效果才会越好。

因为有了批量发送这个前期,从而使得 Kafka 的消息压缩机制能真正发挥出它的威力。对比压缩单条消息,同时对多条消息进行压缩,能大幅减少数据量,从而更大程度提高网络传输率。

多分区

Kafka 使用的是多分区策略,消息被组织成一个一个的主题(topic),而主题可以划分为多个分区(partition)。每个分区都是一个有序、持久化的日志,而 Kafka 通过分区来实现消息的水平扩展和负载均衡。

每个分区内的消息有一个唯一的偏移量(offset),消费者可以根据偏移量读取消息。一个主题可以有多个分区,而消费者可以并行地消费不同分区的消息。

Kafka 使用分区的副本机制来实现数据的冗余备份,而每个主题的分区可以配置多个副本,其中一个副本为 leader(领导者),其他副本为 follower(跟随者)。所有写入操作都由 leader 处理,而 follower 会定期从 leader 同步数据,保持与 leader 数据的一致性。

当 leader 节点故障时,Kafka 会自动从剩余的 follower 中选举新的 leader,确保数据的可用性。

 

顺序写入

Kafka 的特性之一就是高吞吐率,但是 Kafka 的消息是保存在磁盘上的,一般认为在磁盘上读写数据是会降低性能的,但是 Kafka 即使是普通的服务器,Kafka 也可以轻松支持每秒百万级的写入请求,超过了大部分的消息中间件,这种特性也使得 Kafka 在日志处理等海量数据场景广泛应用。

Kafka 为防止丢失数据,会把收到的消息都写入到硬盘中。为了优化写入速度 Kafka 采用了两个技术:顺序写入和 MMFile

因为硬盘是机械结构,每次读写都会寻址->写入,其中寻址是一个“机械动作”,它是最耗时的。所以硬盘最讨厌随机I/O,最喜欢顺序I/O。为了提高读写硬盘的速度,Kafka就是使用顺序I/O。这样省去了大量的内存开销以及节省了IO寻址的时间。

即便是顺序写入硬盘,硬盘的访问速度还是不可能追上内存。所以 Kafka 的写入性能也不可能和内存进行对比,因此 Kafka 的数据并不是实时的写入硬盘中,它充分利用了现代操作系统分页存储(Page Cache)来利用内存提高 I/O 效率。

Memory Mapped Files

Memory Mapped Files(MMAP或MMFile)也称内存映射文件,在64位操作系统中一般可以表示20G的数据文件,它的工作原理是直接利用操作系统的 Page 实现文件到物理内存的直接映射。完成 MMAP 映射后,用户对内存的所有操作会被操作系统自动的刷新到磁盘上,极大地降低了 IO 使用率。

 常规的文件操作为了提高读写性能,使用了 Page Cache 机制,但是由于页缓存处在内核空间中,不能被用户进程直接寻址,所以读文件时还需要通过系统调用,将页缓存中的数据再次拷贝到用户空间中。而采用 mmap 后,它将磁盘文件与进程虚拟地址做了映射,并不会招致系统调用,以及额外的内存 copy 开销,从而提高了文件读取效率。

Page Cache

虽然磁盘顺序写已经很快了,但是对比内存顺序写仍然慢了几个数量级。Kafka 用到了 Page Cache 技术,利用了操作系统本身的缓存技术,在读写磁盘日志文件时,其实操作的都是内存,然后由操作系统决定什么时候将 Page Cache 里的数据真正刷入磁盘。

 如果在极端的情况下会存在丢失数据的风险。

零拷贝

传统模式下,当需要对一个文件进行传输的时候,其具体流程细节如下:

  1. 用户进程调用 read ,系统调用向操作系统发出IO请求,请求读取数据到自己的内存缓冲区中。自己进入阻塞状态。
  2. 操作系统收到请求后,进一步将IO请求发送磁盘。
  3. 磁盘驱动器收到内核的IO请求,把数据从磁盘读取到驱动器的缓冲中。此时不占用CPU。当驱动器的缓冲区被读满后,向内核发起中断信号告知自己缓冲区已满。
  4. 内核收到中断,使用CPU时间将磁盘驱动器的缓存中的数据拷贝到内核缓冲区中。
  5. 如果内核缓冲区的数据少于用户申请的读的数据,重复步骤3跟步骤4,直到内核缓冲区的数据足够多为止。
  6. 将数据从内核缓冲区拷贝到用户缓冲区,同时从系统调用中返回,完成任务。

​​​​​​​

 Kafka服务器在响应客户端读取的时候,底层使用 ZeroCopy 技术,直接将磁盘无需拷贝到用户空间,而是直接将数据通过内核空间传递输出,数据并没有抵达用户空间。


http://www.ppmy.cn/news/1042107.html

相关文章

MES管理系统如何帮助制造企业打造透明化工厂

在制造型企业的运营中,车间现场管理至关重要。然而,面临着信息传递速度慢、跨部门协作困难、生产进度无法及时掌握、制造品质不良、设备故障不能及时处理等困境,企业需要寻求有效的解决方案。MES生产管理系统作为针对制造企业车间生产过程控制…

每日一学——网络安全

网络安全设计、原则、审计等知识点的精讲如下: 网络安全设计与原则: 网络安全设计是指在系统或网络的设计过程中考虑到安全性,并采取相应的安全措施来保护系统或网络不受威胁。安全设计原则包括最小权限原则(Least Privilege Prin…

C++初阶语法——内部类

前言:内部类,顾名思义是定义在类中的类,许多人会以为它属于外部的类,实际上并不是,它们是两个独立的类,但是内部类受外部类类域的限制。 目录 一.概念二.特性1.内部类和外部类相互独立2.内部类是外部类的友…

Web菜鸟入门教程 - MyBatis通过数据库生成java代码

SpringBoot大大简化了Web开发流程。可以这么说,做Web后来开发大部分时间就是在做配置文件修改。Web开发中,终端的运算能力越来越强,大部分场景就是数据库的操作,只有少部分逻辑会放在Web端处理。而这些增删查改基本属于标准的格式…

CFD特性FPmarkets澳福认为了解这11种足够了

CFD在交易中很重要,但CFD特性很多投资者不了解,FPmarkets澳福认为了解这11种足够了: 1. 投资者通过标的资产价格价值的变化获利,而不拥有标的资产。 2. 差价合约交易没有固定的到期日。 3. 与期货交易类似,差价合约交易…

Window下部署使用Stable Diffusion AI开源项目绘图

Window下部署使用Stable Diffusion AI开源项目绘图 前言前提条件相关介绍Stable Diffusion AI绘图下载项目环境要求环境下载运行项目打开网址,即可体验文字生成图像(txt2img)庐山瀑布 参考 本文里面的风景图,均由Stable Diffusion…

基于golang实现telnet远程登录并发送命令源代码实现

//文件命名为main.go //package mainimport ("fmt""net""os""strconv""strings""time" )const WILL 251 const WONT 252 const DO 253 const DONT 254 const IAC 255 const RD 1 const SGA 3func main() {…

环形链表笔记(自用)

环形链表 不管怎么样slow最多走半圈了, 快慢指针slow走一步,fast走两步最合适,因为假设fast和slow相差n每一次他们前进,就会相差n-1步,这样他们一定会相遇,如果是环形链表的话。 代码 /*** Definition for…