【大数据】Canal实现MySQL数据增量同步至Kafka:原理与配置解析

devtools/2025/1/15 22:08:36/

文章目录

  • 一、引言:Canal简介
  • 二、数据提取原理:Binlog与Canal的协同工作
    • 1. Binlog简介
    • 2. Canal工作原理
  • 三、Canal配置解析:搭建MySQL到Kafka的数据桥梁
    • 1. MySQL配置
      • (1)开启Binlog:
      • (2)创建Canal用户并授权:
    • 2. Canal配置
      • (1)下载Canal:
      • (2)解压并修改配置文件:
      • (3)启动Canal:
    • 3. Kafka配置
      • (1)下载并安装Kafka:
    • (2)启动Kafka服务:
      • (3)创建Kafka主题:
    • 4. Canal与Kafka集成
  • 四、优缺点
      • 优点
      • 缺点
  • 四、总结:Canal在数据同步场景中的应用价值

一、引言:Canal简介

Canal是一款开源的数据库增量日志解析组件,主要用于监控数据库数据变更,并将变更数据同步到其他存储介质。Canal通过模拟MySQL Slave的交互协议,实时获取数据库的增量更新,从而实现数据同步。本文将介绍如何使用Canal将MySQL的数据通过监听Binlog,增量发送到Kafka。

二、数据提取原理:Binlog与Canal的协同工作

1. Binlog简介

Binlog(Binary Log)是MySQL数据库的二进制日志,记录了所有对数据库数据的修改操作。开启Binlog后,MySQL会实时将数据变更记录到Binlog文件中。

2. Canal工作原理

Canal通过以下步骤实现数据增量同步:
(1)模拟MySQL Slave:Canal伪装成一个MySQL的Slave节点,向Master发送dump请求。
(2)获取Binlog:MySQL Master接收到dump请求后,会将Binlog发送给Canal。
(3)解析Binlog:Canal解析Binlog,提取出数据变更内容。
(4)发送数据:Canal将解析出的数据变更发送到指定的存储介质,如Kafka。

三、Canal配置解析:搭建MySQL到Kafka的数据桥梁

1. MySQL配置

(1)开启Binlog:

修改MySQL配置文件(my.cnf或my.ini),添加以下配置:

[mysqld]
server-id = 1
log-bin = mysql-bin
binlog-format = ROW
binlog-row-image = FULL
expire_logs_days = 10

(2)创建Canal用户并授权:

CREATE USER 'canal'@'%' IDENTIFIED BY 'canal';
GRANT SELECT, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO 'canal'@'%';
FLUSH PRIVILEGES;

2. Canal配置

(1)下载Canal:

从Canal官网(https://github.com/alibaba/canal)下载Canal包。

(2)解压并修改配置文件:

解压Canal包,进入conf目录,修改instance.properties文件:

canal.instance.master.address=127.0.0.1:3306
设置Canal需要连接的MySQL主节点的地址和端口。
canal.instance.dbUsername=canal
设置Canal连接MySQL时使用的用户名。
canal.instance.dbPassword=canal
设置Canal连接MySQL时使用的密码。
canal.instance.connectionCharset = UTF-8
设置连接MySQL时的字符集,确保数据编码正确。
canal.instance.filter.regex=.*\\..*
设置数据过滤规则,这里表示同步所有数据库的所有表。.*\\..*是一个正则表达式,.需要转义。

(3)启动Canal:

执行以下命令启动Canal服务:

sh bin/startup.sh

3. Kafka配置

(1)下载并安装Kafka:

从Kafka官网(http://kafka.apache.org/)下载Kafka包,并解压。

(2)启动Kafka服务:

执行以下命令启动Zookeeper和Kafka服务:

bin/zookeeper-server-start.sh config/zookeeper.properties
bin/kafka-server-start.sh config/server.properties

(3)创建Kafka主题:

bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic canal_topic

kafka的topic可以直接自动创建,不需要先执行创建语句

4. Canal与Kafka集成

修改Canal的conf/canal.properties文件,添加以下配置:

# Kafka配置
canal.mq.servers = 127.0.0.1:9092
canal.mq.topic = canal_topic

四、优缺点

Canal作为一个开源的数据库增量日志解析组件,具有以下优点和缺点:

优点

  1. 实时性
    • Canal能够实时地获取数据库的增量更新,并快速地将这些变更同步到其他系统,这对于需要实时数据同步的场景非常有用。
  2. 低延迟
    • 由于直接解析Binlog,Canal可以实现毫秒级的延迟,这对于需要近实时数据处理的应用来说至关重要。
  3. 高可用性
    • Canal支持集群部署,可以通过Zookeeper等协调服务来实现高可用性,确保数据同步的连续性和稳定性。
  4. 灵活性
    • Canal支持多种目标端,如Kafka、RocketMQ、HBase等,可以根据不同的业务需求选择合适的存储介质。
  5. 易用性
    • Canal的配置相对简单,易于上手,且社区活跃,文档齐全,可以快速地搭建起数据同步链路。
  6. 数据一致性
    • 通过Binlog的精确解析,Canal能够保证源数据库与目标存储之间数据的一致性。
  7. 无侵入性

缺点

  1. 单点故障
    • 在单机部署模式下,Canal存在单点故障的风险。虽然可以通过集群部署来解决这个问题,但这也增加了系统的复杂性。
  2. 对MySQL的依赖
    • Canal强依赖于MySQL的Binlog功能,如果数据库不支持Binlog或者Binlog格式不是ROW,Canal将无法工作。
  3. 性能瓶颈
    • 数据库变更非常频繁时,Canal可能成为数据同步链路中的性能瓶颈,尤其是在单节点部署的情况下。
  4. 数据过滤限制
    • 虽然Canal支持正则表达式来过滤数据库和表,但某些复杂的过滤需求可能难以实现。
  5. 运维成本
    • 虽然Canal易于配置,但在大规模集群部署时,运维成本相对较高,需要监控和管理多个实例。
  6. 版本兼容性
    • 在某些情况下,Canal可能需要与特定版本的MySQL或Kafka等系统配合使用,版本兼容性问题可能会带来一定的困扰。
  7. 学习曲线
    • 对于初次接触Canal的用户来说,可能需要一定时间来理解和掌握其配置和使用方法。
      综上所述,

四、总结:Canal在数据同步场景中的应用价值

通过以上配置,我们成功搭建了MySQL到Kafka的数据同步链路。Canal在数据同步场景中的应用价值主要体现在以下几个方面:

  1. 实时性:Canal能够实时获取数据库的增量更新,满足实时数据同步需求。
  2. 高效性:Canal通过解析Binlog,避免了全量同步的数据量过大问题,提高了同步效率。
  3. 灵活性:Canal支持多种目标存储介质,如Kafka、Elasticsearch等,满足不同场景的需求。

Canal在提供高效、实时的数据同步解决方案的同时,也存在一些潜在的挑战和限制。在实际应用中,需要根据具体需求和场景来权衡其优缺点。
掌握Canal的使用,有助于我们在大数据时代更好地实现数据价值的挖掘。


http://www.ppmy.cn/devtools/107653.html

相关文章

【Ubuntu20.04】配置深度学习环境

参考 Ubuntu20.04配置深度学习环境(全网最细最全) NVIDIA显卡驱动安装安装CUDA 通过终端nvidia-smi查看自己能安装的最高CUDA版本,在官方网址下载需要的版本。安装cuDNN 在官方网址选择适配于自己安装的CUDA版本的cuDNN安装Anaconda &#x…

【Tools】计算机视觉(CV)技术的优势和挑战。

我们从不正视那个问题 那一些是非题 总让人伤透脑筋 我会期待 爱盛开那一个黎明 一定会有美丽的爱情 🎵 范玮琪《是非题》 计算机视觉(CV)技术是一种模拟人类视觉系统的能力,通过使用计算机算法和图像处理技…

Docker(完整实验版)

目录 一 Docker 1.1 Docker简介 1.1.1 什么是docker? 1.1.2 docker在企业中的应用场景 1.1.3 docker与虚拟化的对比 1.1.4 docker的优势 1.2 部署docker 1.2.1 配置软件仓库 二 Docker的基本操作 2.1 Docker镜像管理 2.1.1 搜索镜像 2.1.2 拉取镜像 2…

Nginx: 缓存, 不缓存特定内容和缓存失效降低上游压力策略及其配置示例

概述 在负载均衡的过程中,有一个比较重要的概念,就是缓存利用缓存可以很好协调Nginx在客户端和上游服务器之间的速度不匹配的矛盾从而很好的解决整体系统的响应速度 如果用户需要通过Nginx获取某一些内容的时候,发起一个request请求这个请求…

WS2812B驱动

#include "stm32f10x.h" #include "TIM2.h" #include "DMA1.h"//#define WS2812B_LED_QUANTITY 32 //灯珠数量 #define WS2812B_LED_QUANTITY 12 //灯珠数量//定义数组 类型符 数组名[常量] uint32_t WS2812B_Buf[WS2812B_LED_QUANTITY]; //0xG…

BUUCTF—[网鼎杯 2020 朱雀组]phpweb

题解 打开题目是这样子的。 啥也不管抓个包看看,从它返回的信息判断出func后面的是要调用的函数,p后面的是要执行的内容。 那我们直接执行个系统命令看看,可以看到返回了hack,估计是做了过滤。 funcsystem&pls 直接读取源码…

VSCOD常用扩展库

以下是一些常用的 Visual Studio Code 扩展库。 ESLint:用于 JavaScript 和 TypeScript 的静态代码分析工具,帮助发现和修复代码错误和风格问题。 Prettier:用于自动格式化代码的工具,支持多种编程语言。 GitLens:为…

django外键表查询

Django外键(ForeignKey)操作以及related_name的作用-CSDN博客 django模型中外键操作_django的model的contain外键-CSDN博客 通过基本表可以查外键表 删基本表可以删外键表