利用 NineData 实现 PostgreSQL 到 Kafka 的高效数据同步

devtools/2025/1/9 0:26:05/

记录一次 PostgreSQL 到 Kafka 的数据迁移实践。前段时间,NineData 的某个客户在一个项目中需要将 PostgreSQL 的数据实时同步到 Kafka。需求明确且普遍:

  • PostgreSQL 中的交易数据,需要实时推送到 Kafka,供下游多个系统消费,包括实时监控、用户通知服务和数据分析平台。

  • 数据需要保证准确性,不能有遗漏或重复。

  • 要求延迟尽可能低,同时支持大批量并发写入场景。

起初,他们尝试了不少开源方案,均以失败告终。问题总结为如下四个点:

  1. 配置复杂:要开启 PostgreSQL 的逻辑复制、解析 WAL 日志、搭建 Kafka 数据管道,光是查文档就费了不少时间。

  2. 数据一致性问题:自己实现的数据同步逻辑,时不时会遇到丢数据或者重复的问题,调试起来极其费劲。

  3. 费时费力:自己搭建数据同步方案需要花费大量时间开发和调试,即使完成了初始开发,后续的维护和优化工作依然会占用大量精力,特别是在面对需求变化时,可能需要重新调整整个流程。

  4. 监控和故障恢复困难:自建方案缺乏完善的监控方式,数据同步链路涉及多个环节,一旦出现故障,排查问题及其耗时且低效。

几番折腾下来,时间精力浪费了不少,问题却没解决。客户感到筋疲力尽,只想尽快找到一个简单的解决方案以快速实现业务需求,而不是纠结于繁琐的底层技术细节上。最终,客户找到了 NineData。

NineData 数据复制简介

NineData 数据复制功能由玖章算术公司推出,支持多种支持跨数据库的全量与增量数据同步,在提供高效、稳定的数据流动体验的同时,确保迁移过程中的数据一致性,降低迁移的技术门槛和风险。

在 PostgreSQL 到 Kafka 的同步场景下,NineData 提供如下能力:

  • 快速启动,无需开发:NineData 内置 PostgreSQL 和 Kafka 的深度集成,全程可视化操作,鼠标点击即可轻松完成任务配置,无需了解数据迁移的技术细节,更无需二次开发。

  • 高效的 CDC 能力:基于 PostgreSQL 的逻辑复制技术,NineData 能实时捕获数据库的变更数据(CDC),并将其转化为 Kafka 消息,支持毫秒级延迟,满足实时性要求。

  • 稳定可靠的容错机制:自动检测同步链路的异常状况,支持断点续传和重试机制,即使面对网络抖动或 Kafka 消息积压,也能保证任务稳定运行,确保数据一致性。

  • 全面的监控与告警:提供实时的任务监控面板,用户可直观查看数据同步状态、延迟、数据量等关键指标,同时支持异常告警通知,方便快速定位和解决问题。

三分钟完成迁移配置

步骤一:将 PostgreSQL 和 Kafka 录入到 NineData 平台

1. 登录 NineData 控制台,单击数据源管理>数据源,然后在页面中单击创建数据源,选择需要录入的数据源。

图片

2. 根据页面提示进行配置,然后单击创建数据源完成创建。

图片

步骤二:配置同步链路

1. 登录 NineData 控制台,单击数据复制>数据复制,然后单击创建复制。

图片

2. 根据页面提示配置复制任务,由于我们想要实现实时数据同步,需要在复制类型处额外勾选增量复制。

图片

3. 配置完成后启动任务,针对你配置的所有同步对象,NineData 会先对所有的存量数据进行全量迁移,接下来就是实时迁移源端 PostgreSQL 中新增的增量数据,所有新写入的数据都将一条不漏地传递到 Kafka,每当 PostgreSQL 端的增量数据已经全部写入 Kafka,并且没有新的增量数据时,任务面板中的延迟将显示为 0 秒,代表当前 Kafka 中的数据是最新的。

图片

步骤三(可选):配置任务异常告警

在迁移过程中,可能需要系统实时监控任务状态,在任务有异常时即刻通知你。

1. 登录 NineData 控制台,单击数据复制>数据复制,然后单击复制任务名称。

图片

2. 单击右上角的配置告警。

图片

3. 输入策略名称,选择告警规则,单击保存配置即可。你可以直接使用内置的默认规则,在任务运行失败,或复制延迟大于等于 10 分钟的时候,发送短信提醒你。你也可以自定义创建规则,根据你的需求来进行通知。

图片

至此,你已经完成了业务系统接入 Kafka 的所有步骤,业务数据将源源不断地从 PostgreSQL 流入 Kafka,接下来你只需要让你的应用从 Kafka 中消费数据,即可实现完整的数据流处理。

客户评价

“NineData 帮我们解决了 PostgreSQL 到 Kafka 的数据同步难题。操作非常简单,配置好任务后就基本不用再操心了。特别是它的稳定性和实时性,完全满足了我们的业务需求。我们现在可以轻松构建实时数据流,并将更多精力放在核心业务上。”

总结

从实际使用体验来看,NineData 在快速部署、实时同步、处理复杂业务场景等方面都表现出了极大的优势,可以说是构建实时数据流的理想解决方案,让企业的数据流转更加高效和省心。


http://www.ppmy.cn/devtools/148384.html

相关文章

应用程序越权漏洞安全测试总结体会

应用程序越权漏洞安全测试总结体会 一、 越权漏洞简介 越权漏洞顾名思议超越了自身的权限去访问一些资源,在OWASP TOP10 2021中归类为A01:Broken Access Control,其本质原因为对访问用户的权限未进行校验或者校验不严谨。在一个特定的系统或…

django vue3实现大文件分段续传(断点续传)

前端环境准备及目录结构: npm create vue 并取名为big-file-upload-fontend 通过 npm i 安装以下内容"dependencies": {"axios": "^1.7.9","element-plus": "^2.9.1","js-sha256": "^0.11.0&quo…

解决 :VS code右键没有go to definition选项(转到定义选项)

问题背景: VScode 右键没有“go to definition”选项了,情况如图所示: 问题解决办法: 第一步:先检查没有先安装C/C插件,没有安装就先安装下。 第二步: 打开VS CODE设置界面:文件->…

【网络】HTTP/1.0、HTTP/1.1、HTTP/2、HTTP/3比对

HTTP/3是HTTP协议的最新版本,它基于QUIC协议,而QUIC最初由Google开发,后来被IETF标准化。以下是包含HTTP/1.0、HTTP/1.1、HTTP/2和HTTP/3(基于QUIC)的对比表格: 特性HTTP/1.0HTTP/1.1HTTP/2HTTP/3 (基于QU…

【HarmonyOS】:DevEco Studio安装与应用工程创建指南

前言 本文旨在为初涉 HarmonyOS 开发的开发者提供一份详尽的入门指南,涵盖从安装最新版 DevEco Studio 到使用该 IDE 创建首个应用工程的具体步骤。通过遵循本指南,您将能够顺利搭建起自己的开发环境,并迈出构建HarmonyOS应用的第一步。 一、…

Visual Studio 中增加的AI功能

前言: 人工智能的发展,在现在,编程技术的IDE里面也融合了AI的基本操做。本例,以微软的Visual Studio中的人工智能的功能介绍例子。 本例的环境: Visual Studio 17.12 1 AI 智能变量检测: 上图展示了一…

Kafka 全面指南:从基础到实战

Kafka 全面指南:从基础到实战 📚 1. 什么是 Kafka? Apache Kafka 是一个分布式的 消息队列 和 流处理平台,用于处理 实时数据流。它可以将 数据生产者 和 数据消费者 解耦,提供高性能、可扩展的消息传递系统。 📝 Kafka 的核心概念 名词描述Producer生产者,向 Kafka …

贴吧ip属地不准确什么意思?是根据什么来的

在数字化时代,IP地址作为网络设备的唯一标识符,不仅承载着用户的网络身份,还关联着用户的地理位置信息。百度贴吧等社交平台,为了维护网络环境的健康与秩序,遵循相关规定,在用户个人主页等位置展示账号IP属…