从MySQL到OceanBase离线数据迁移的实践

ops/2024/10/18 2:35:38/
本文作者:玉璁,OceanBase 生态产品技术专家。工作十余年,一直在基础架构与中间件领域从事研发工作。现负责OceanBase离线导数产品工具的研发工作,致力于为 OceanBase 建设一套完善的生态工具体系。

背景介绍

在互联网与云数据库技术的蓬勃发展下,MySQL已在全球范围内被大规模使用。当前,也有很多用户开始体验与MySQL高度兼容的分布式数据库OceanBase。面对从MySQL向OceanBase的迁移,很多小体量的业务常通常依赖MySQL生态中的轻量级工具进行逻辑备份与数据导入导出。

为了让用户更轻便快捷的进行迁移,OceanBase官方推出了多款专用的迁移工具,如OMS、DataX开源版及OBLOADER等,以在让用户能够沿用现有系统设计方案,顺利完成数据库迁移。本文是以在离线导数方案来教大家使用 mysqldump 和 OBLOADER 完成一次数据库迁移的实践。同时,在文末作者也会简单分享 OBLOADER 为了兼容 mysqldump 导出的文件格式的实现原理。

工具推荐

这一节我们会关注两个自研的生态工具:mysqldump 和 OBLOADER。mysqldump 作为 MySQL社区免费的导数工具,也常被用作MySQL逻辑备份程序。外部有不少用户的数据库运维系统也会集成mysqldump程序实现备份恢复功能。无论是导入导出还是备份恢复,日常的操作都是出库和入库。首先我们介绍一下 MySQL 官方的介绍:

1686041408

提示: 
1. mysqldump 支持导出 SQL-format, Delimited-text 文件格式;
2. SELECT ... INTO OUTFILE 仅支持导出 Delimited-text 文件格式;
3. SQL-format 文件格式可以使用 mysql 客户端导入;
4. Delimited-text 文件格式使用 LOAD DATA 或者 mysqlimport 客户端;

上述是我在阅读 MySQL 官方文档时提取出来与本文联系较大的内容。OBLOADER 需要能够正确识别 mysqldump 导出的文件。另外还要求用户熟练掌握 mysqldump 工具,这样整个实践的过程才会更加顺畅。数据库导出包括Schema定义导出和表中的数据导出两部分内容。Schema导出只能使用 SQL-format格式,但是数据导出会更加灵活,mysqldump 同时支持 SQL-format 文件格式和 Delimited-text 文件格式。那么,用户何时使用 SQL-format 文件格式,何时使用 Delimtied-text 文件格式呢?表中定义有二进制数据类型,例如:BIT, BINARY, VARBINARY, BLOB 以及BINARY字符集的字符类型时,表中的数据必须按照 SQL-format 文件格式导出,同时命令行加上 --hex-blob 选项,该选项可以控制 mysqldump 对二进制数据进行十六进制编码处理。注意:按照 Delimited-text 文件格式导出数据时,mysqldump 是无法使用 --hex-blob 选项。表中没有定义二进制数据类型时,强烈建议使用 Delimited-text 文件格式。下面我们结合MySQL导出和OceanBase导入操作来介绍工具的简单用法:

MySQL CE 导出数据示例

SQL-format 格式导出示例(不推荐)

mysqldump -h'127.0.0.1' -P 3306 -uroot -p'xxx' --databases 'test' --compact --complete-insert --disable-keys --hex-blob > test-data.sql S
说明:该示例是将数据库中定义的Schema信息和表数据按照SQL-format格式写进同一份文件中。

示例中的关键选项说明

选项说明
--compact导出产生更少用于调试的输出信息,例如:去掉注释和头尾等结构信息。
--complete-insert导出的 Insert SQL 语句会带上列名。例如:INSERT INTO <table> (column1, [column2...]) ...
--disable-keys为了提升导入性能,导出的 Insert SQL 语句前后加上开关延迟构建索引。
--hex-blob对于二进制数据类型采用16进制字符串进行编码。
--skip-extended-insert导出的 Insert SQL 语句是单行插入语句,为了提升导入性能默认导出的是 Multi-values 格式。
--net-buffer-length默认值是1MB,最大值是16MB。该选项可以限制 Insert SQL 语句的长度。 
提示:为了降低文件的存储空间,导出时可以加上一些命令行选项减少非必需的信息输出。

Delimited-text 格式导出示例(推荐)

mysqldump -h'127.0.0.1' -P 3306 -uroot -p'xxx' --databases test --compact --fields-optionally-enclosed-by "'" --fields-escaped-by '\\' --fields-terminated-by ',' --lines-terminated-by '\n' --tab='/var/tmp/';
说明:该示例将数据库中定义的Schema和表数据分开导出,Schema是按照SQL-format格式输出,数据是按照标准的 CSV 格式输出,CSV规范可参考 RFC-4180。

示例中的关键选项说明

选项说明
--compact导出产生更少用于调试的输出信息,例如:去掉注释和头尾等结构信息。
--fields-optionally-enclosed-by "'"指定列定界符。示例指定的是单引号。
--fields-escaped-by '\\'指定转义符。示例指定的是反斜杠。
--fields-terminated-by ','指定列分隔符。示例指定的是逗号。
--lines-terminated-by '\n'指定行分隔符。示例指定的是 \n。注意:不同操作系统的换行符有差异。
--tab='/var/tmp/'指定Schema文件和数据文件的存放目录。

OceanBase 导入数据示例

本文是围绕着 OceanBase MySQL 模式来实践的,由于 MySQL 与 Oracle 之间存在差异,暂不涉及到 OceanBase Oracle 模式。基于上述的 MySQL 导出操作完成,我们使用 OceanBase 自研的客户端导入工具 OBLOADER 完成数据库导入操作。第一步是将数据库中定义的Schema导入到OceanBase中。

SQL-format 格式导入示例(不推荐)

./obloader -h'xxx.xxx.xxx' -P2883 -t'tenant' -c'cluster' -u'user' -p'xxx' --sys-password --mix -f '/var/tmp'

Delimited-text 格式导入示例(推荐)

./obloader -h'xxx.xxx.xxx' -P2883 -t'tenant' -c'cluster' -u'user' -p'xxx' --sys-password --csv -f '/var/tmp'

兼容性分析

在介绍解析 SQL-format 原理之前,我们对于 mysqldump 导出的文件作一个简要的兼容性分析。SQL-format文件内容主要是可执行的SQL语句,例如:DCL, DDL, Insert SQL以及Comment信息。但是这些语句并非OceanBase是可以兼容的。下面举一个例子:

/*!40000 ALTER TABLE `t2` DISABLE KEYS */;

上述SQL语句在MySQL中称之为 single-line /*! */ version comments,它与普通的 comments 区别在于SQL引擎并非直接跳过该注释语句,而是根据条件选择性地执行,上述语句SQL引擎会判断当前的MySQL数据库版本是否大于等于4.0.0?只有版本满足条件才会执行后续的变更语句,否则跳过。但是 OceanBase 会把上述语句当作普通的 multiple-line comment 语句处理,这会导致 single-line /*! */ version comments 中定义的Schema可能会丢失,最终造成数据库导入信息缺失的问题。同时,OceanBase 语法、功能上也未支持上述ALTER语句的变更功能,诸如此类的兼容问题较多。未来 OBLOADER 研发同学会考虑对于 mysqldump 导出的 SQL-format 文件进行分析、识别与转换处理,最大程度保证数据库的定义信息可以导入进 OceanBase 中。

写在最后

数据库以及生态工具的兼容性处理是一项非常细致且复杂的工作。如果想开发一款好用的工具产品,要求开发者对数据库的原理特性甚至是细节方面都有深入的了解和把握。OBLOADER 正在尝试解决异构数据库之间的导入导出所面对的各种兼容性的问题,尽最大努力让同异构数据库之间的导入导出工作变得更加平顺一些。


http://www.ppmy.cn/ops/126364.html

相关文章

【Kubernets】容器网络基础二:通讲CNI(Container Network Interface)容器网络接口实现方案

文章目录 背景知识Underlay网络Overlay网络一、基本概念二、工作原理三、实现方案四、应用场景 两者对比示意图 CNI实现有哪些&#xff1f;FlannelFlannel 的工作原理Flannel 的主要组件数据传输机制总结 Calico一、架构基础二、核心组件与功能三、路由与数据包转发四、安全策略…

jvm介绍

JVM&#xff0c;即Java虚拟机&#xff08;Java Virtual Machine&#xff09;&#xff0c;是运行Java程序的抽象平台。它是一个能够执行Java字节码的虚拟机实例&#xff0c;负责将Java字节码转换为特定平台上的机器码并执行。下面我将从几个方面对JVM进行详细介绍&#xff1a; 1…

串口空闲中断加DMA数据搬运

1 usart.c #include "stm32f10x.h" // Device header #include <stdio.h> #include <stdarg.h>//void Serial_Init(void) //{ // //使能GPIOA 以及串口1的时钟 // RCC_APB2PeriphClockCmd(RCC_APB2Periph_GPIOA|RCC_APB2Periph_US…

C++ IO多路复用 poll模型

原文链接&#xff1a;C IO多路复用 poll模型 预备知识 poll模型前置需要了解的可以参考: IO控制:fcntl库:IO控制库 多线程:C Linux多线程同步通信-信号量 socket:C Linux多进程Socket通信 select模型:C IO多路复用 select模型 poll模型 特性 原理 poll是对select的改…

C#从零开始学习(Head First C#)

想要开发游戏&#xff0c;C#是unity用的编程语言,所以想系统的巩固和学习一下&#xff0c;在此记录自己的学习笔记&#xff0c;来和大家共同学习&#xff0c;同时也希望能够帮助一些想入门的同学&#xff0c;因此我会使用Head First C#这本书籍,从最开始的章节记录。给自己定个…

【环境搭建】远程服务器搭建ElasticSearch

参考&#xff1a; 非常详细的阿里云服务器安装ElasticSearch过程..._阿里云服务器使用elasticsearch-CSDN博客 服务器平台&#xff1a;AutoDL 注意&#xff1a; 1、切换为非root用户&#xff0c;su 新用户名&#xff0c;否则ES无法启动 2、安装过程中没有出现设置账号密码…

使用shell实现高精度时间日志记录与时间跳变检测

文章目录 0. 概述1. 使用说明1.1. 参数说明1.2. 运行脚本 2. 脚本详细解析2.1. 参数初始化2.2. 参数解析与验证2.3 主循环条件2.4 时间跳变检测与处理2.5. 日志轮转机制2.6. 睡眠时间计算 0. 概述 之前写过单线程版本的高精度时间日志记录小程序&#xff1a;C编程&#xff1a;…

前端布局,y轴超出滚动、x轴超出展示方案

想要实现布局效果&#xff0c;红区高度固定可滑动可收起。红区引用绿区组件。 一般会想到如下方案&#xff0c;红区样式&#xff1a; width&#xff1a;200px; height: 100%; overflow-y: auto; overflow-x: visible; 但是效果并不好&#xff0c;绿区直接隐藏了 最终采用布局方…