Kafka跨集群数据备份与同步:MirrorMaker运用

server/2025/3/19 10:14:44/

#作者:张桐瑞

文章目录

  • 前言
  • MirrorMaker是什么
  • 运行MirrorMaker
  • 各个参数的含义

前言

在大多数情况下,我们会部署一套Kafka集群来支撑业务需求。但在某些特定场景下,可能需要同时运行多个Kafka集群。比如,为了实现灾难恢复,你可以在不同机房分别部署独立的Kafka集群。如果一个机房发生故障,你可以快速切换流量到另一个正常运行的机房。另外,如果你希望为地理上较近的客户提供低延迟的消息服务,而你的主机房距离客户较远,可以在靠近客户的地区部署Kafka集群,让该集群为客户提供低延迟的服务。
要满足这些需求,除了部署多个Kafka集群外,还需要借助一些工具或框架来帮助实现数据在集群间的复制或镜像。需要注意的是,将单个集群内部不同节点之间的数据复制称为“备份”,而集群间的数据复制则称为“镜像”(Mirroring)。

Apache Kafka社区提供的MirrorMaker工具,能够帮助我们实现将消息或数据从一个Kafka集群复制到另一个集群的功能。通过使用MirrorMaker,我们可以轻松地实现跨集群的数据复制和镜像,支持多种场景,如灾难恢复、跨地域低延迟服务等。这个工具能够高效地确保不同Kafka集群间的数据一致性和可靠性,是实现集群间数据同步的重要工具之一。

MirrorMaker是什么

MirrorMaker 是 Apache Kafka 提供的一个工具,用于在不同 Kafka 集群之间复制数据。它支持将一个 Kafka 集群中的消息或数据流同步到另一个集群中,确保集群间的数据一致性和可靠性。MirrorMaker 主要用于以下几种场景:

灾难恢复:将数据从主集群复制到备用集群,如果主集群发生故障,可以快速切换到备用集群进行业务恢复。
跨地域数据同步:在不同地理位置的 Kafka 集群之间同步数据,以便为不同地区的用户提供低延迟的服务。
集群间迁移:在进行集群扩容或升级时,可以利用 MirrorMaker 在不同集群之间迁移数据,避免服务中断。

数据备份:将集群的数据复制到另一个集群作为备份,确保数据的冗余和安全性。
MirrorMaker 的工作原理是,它从源集群的一个或多个 topic 中消费消息,并将这些消息生产到目标集群中的相应 topic。通过这种方式,它能够实现跨集群的数据同步。

在使用时,可以选择使用 MirrorMaker 1(较为基础)或 MirrorMaker 2(功能更强大,支持更多特性,比如增量复制、配置更细粒度的同步等)。MirrorMaker 2 是基于 Kafka Connect 构建的,具有更高的可扩展性和容错性。
从本质上看,MirrorMaker 确实是一个消费者和生产者的结合体。消费者负责从源集群(Source Cluster)消费数据,而生产者则将这些数据发送到目标集群(Target Cluster)。整个镜像流程如下图所示:
在这里插入图片描述
MirrorMaker连接的源集群和目标集群,会实时同步消息。当然,你不要认为你只能使用一套MirrorMaker来连接上下游集群。事实上,很多用户会部署多套集群,用于实现不同的目的。

通过下面这张图,可以清晰明白通过MirrorMaker进行多集群间镜像。图中部署了三套集群:左边的源集群负责主要的业务处理;右方的目标集群可以用于执行数据分析;而右下方的目标集群则充当源集群的热备份。
在这里插入图片描述

运行MirrorMaker

Kafka默认提供了MirrorMaker命令行工具kafka-mirror-maker脚本,它的常见用法是指定生产者配置文件、消费者配置文件、线程数以及要执行数据镜像的主题正则表达式。比如下面的这个命令,就是一个典型的MirrorMaker执行命令。

# bin/kafka-mirror-maker.sh --consumer.config ./config/consumer.properties --producer.config ./config/producer.properties --num.streams 8 --whitelist ".*"

各个参数的含义

consumer.config:指定MirrorMaker中消费者的配置文件地址,最主要的配置项是bootstrap.servers,也就是该MirrorMaker从哪个Kafka集群读取消息。因为MirrorMaker有可能在内部创建多个消费者实例并使用消费者组机制,因此你还需要设置group.id参数。建议额外配置auto.offset.reset=earliest,否则,MirrorMaker只会拷贝那些在它启动之后到达源集群的消息。

producer.config:指定MirrorMaker内部生产者组件的配置文件地址。通常来说,Kafka Java Producer很友好,你不需要配置太多参数。唯一的例外依然是bootstrap.servers,你必须显式地指定这个参数,配置拷贝的消息要发送到的目标集群。

num.streams:MirrorMaker要创建多少个KafkaConsumer实例。使用的是多线程的方案,即在后台创建并启动多个线程,每个线程维护专属的消费者实例。在实际使用时,可以根据你的机器性能酌情设置多个线程。

whitelist:如命令所示,这个参数接收一个正则表达式。所有匹配该正则表达式的主题都会被自动地执行镜像。在这个命令中,指定 “.*”,表明要同步源集群上的所有主题。


http://www.ppmy.cn/server/176215.html

相关文章

PATB1113 钱串子的加法

传统题1000ms256MiB 人类习惯用 10 进制,可能因为大多数人类有 10 根手指头,可以用于计数。这个世界上有一种叫“钱串子”(学名“蚰蜒”)的生物,有 30 只细长的手/脚,在它们的世界里,数字应该是…

FIND_PACKAGE之REQUIRED和QUIET

在CMake中,FIND_PACKAGE命令用于查找并加载一个外部项目或库的配置文件。这个命令有几个选项可以控制其行为,其中REQUIRED和QUIET是两个常用的选项。 REQUIRED 当你在FIND_PACKAGE命令中加入REQUIRED选项时,如果指定的包没有被找到&#xf…

2024浙江大学计算机考研上机真题

2024浙江大学计算机考研上机真题 2024浙江大学计算机考研复试上机真题 2024浙江大学计算机考研机试真题 2024浙江大学计算机考研复试机试真题 历年浙江大学计算机复试上机真题 历年浙江大学计算机复试机试真题 2024浙江大学计算机复试上机真题 2024浙江大学计算机复试机试真题 …

【推荐项目】 054-oasys 管理系统

054-oasys 管理系统 介绍 springboot mysql oasys OA管理系统 oasys是一个OA办公自动化系统,使用Maven进行项目管理,基于springboot框架开发的项目,mysql底层数据库,前端采用freemarker模板引擎,Bootstrap作为前端U…

reactive数据修改无效

环境 vue:3.2.13 element-plus: 2.9.6 typescript:4.5.5 问题 表格列表页面,页面中有新增和修改操作,新增和修改共用一个弹窗,弹窗中表单绑定的数据修改无效。复现步骤是先点击表格中的修改,然后点击新…

React 和 Vue 框架概念及区别

React 和 Vue 是什么? React 和 Vue 都是 前端开发框架,用来构建网页或应用的用户界面(UI)。它们能帮助开发者更高效地管理网页的结构、交互和数据更新,使网页变得更智能、更流畅。 简单来说: React 是 …

最新!Ubuntu Docker 安装教程

源自: AINLPer(每日干货分享!!) 编辑: ShuYini 校稿: ShuYini 时间: 2025-3-1 更多:>>>>大模型/AIGC、学术前沿的知识分享! 看到很多部署大模型的时候,都是基于docker安装部署的。…

【Node.js入门笔记8---fs的一些高级功能】

Node.js入门笔记8 Node.js---fs高级功能一、fs高级功能1. fs.chmod():修改文件权限(如 0o755)。2. fs.chown():修改文件所有者。3. 使用 fs.promises 下的方法。4. 用 util.promisify() 转换回调风格的函数。 Node.js—fs高级功能…