Flink Cdc TiDB详解

news/2025/3/19 14:42:20/

1. 什么是 Flink TiDB CDC？

简单说就是用 Flink 实时抓取 TiDB 数据库的数据变化（比如新增、修改、删除），并将这些变化数据以流的形式处理，用于实时分析、同步到其他系统等场景。
TiDB 本身是分布式数据库，而 Flink 是流处理引擎，两者的结合适合需要高吞吐、低延迟的大规模数据处理场景[7][8]。

2. 底层原理

TiDB 侧：通过 TiCDC 组件（TiDB 的变更数据捕获工具）捕获数据变更，类似 MySQL 的 binlog[2][4]。
Flink 侧：使用 flink-connector-tidb-cdc 连接器，订阅 TiCDC 的变更数据流，将数据转换为 Flink 可处理的流式数据[8][10]。
处理流程：
1. 全量快照：首次读取 TiDB 表的当前全量数据。
2. 增量监听：持续监听 TiCDC 的变更日志，实时捕获后续增删改操作。
3. 流式处理：Flink 对数据做清洗、聚合等处理，输出到下游（如 Kafka、另一个数据库）[1][5]。

3. 典型应用场景

实时数仓更新：将 TiDB 的订单、用户行为数据实时同步到 Hive/Iceberg 等数仓[7]。
跨系统数据同步：比如 TiDB 数据实时写入 Elasticsearch 做搜索，或同步到 Redis 做缓存[7][8]。
业务监控：实时统计 GMV（如电商场景），一旦数据变化立刻计算[4][7]。
数据一致性修复：通过 CDC 捕捉异常数据，触发告警或自动修复[9]。

4. 配置关键步骤

开启 TiCDC：在 TiDB 集群中启用 TiCDC 组件，并配置同步任务。
添加 Flink 依赖：引入 flink-connector-tidb-cdc 的 Jar 包（需确认版本兼容性）[1][5]。

编写 Flink 代码：通过 DataStream 或 SQL 方式定义数据源，例如：

java">TiDBSource<String> source = TiDBSource.<String>builder().hostname("tidb-host").port(4000).database("test_db").tableList("user_table").deserializer(new JsonDebeziumDeserializationSchema()).build();

处理与输出：定义数据处理逻辑（如过滤、聚合），并写入目标系统[5][8]。

5. 优势与注意点

优势：
- 低延迟：毫秒级数据同步，适合实时场景[4][7]。
- Exactly-Once 语义：Flink 保证数据不丢不重[8]。
- 兼容性：TiDB 兼容 MySQL 协议，部分配置可参考 MySQL CDC 方案[1][6]。
注意点：
- 资源消耗：TiCDC 和 Flink 任务需分配足够内存，避免 OOM。
- 版本兼容：确认 Flink 版本与 TiDB CDC 连接器的兼容性。
- 数据格式：TiCDC 输出的数据格式需与 Flink 反序列化器匹配[9][10]。