杭州百腾教育科技 TiDB 6.5 to 7.5 升级记录

ops/2024/9/20 7:14:14/ 标签: 科技, tidb

作者: reAsOn2010 原文来源: https://tidb.net/blog/612103f3

背景

使用 TiDB 作为我们的全量数据库已经有六七年了,当时还是 2.0 版本。早期TiDB的迭代和新特性的发布对于实际使用的影响还是很大的,所以从那个时候开始就有每年的例行升级运维。

而每年暑假都是我们业务的低谷时间,自然选择在7月底8月初左右进行这次的升级。

事实上 TiDB 6.5 在使用上已经相当稳定了,当然我们仍然选择了更新的 LTS 作为这次的升级目标。

官方这次的升级互助活动提供的升级方案基本上都是使用 TiUP 进行的,而我们的 TiDB 集群已经全部纳入 K8S 管理,所以我们这次的升级是通过 TiDB Operator 进行。 升级时间 2024.07.29

升级流程

准备工作

感谢表妹在群里分享的 TiDB 参数变更,一路升级上来除了有一次重建了新集群,其他时候都没有特别去调整参数配置。升级前已经是 6.5 了,所以直接应用一下推荐值,排查发现有2个参数需要变更。

这边整理版本升级到v6.x以上的一些系统变量和配置项默认值改变一些参数,一般情况在升级后可以直接设置,建议排查下刚升级的集群

set global tidb_server_memory_limit="80%"; --该参数请根据实际情况调整

set global tidb_enable_rate_limit_action=false;

set global tidb_enable_paging=ON;

set global tidb_enable_pseudo_for_outdated_stats=OFF;

set global tidb_enable_outer_join_reorder=ON;

set global tidb_stats_load_sync_wait=100;

set global tidb_stats_load_pseudo_timeout=ON;

set global tidb_enable_index_merge=ON;

set global tidb_prepared_plan_cache_size = 50;

TiDB Server 实例内存阈值 <= 64 GiB 时,tidb_prepared_plan_cache_size = 50

TiDB Server 实例内存阈值 > 64 GiB 时,tidb_prepared_plan_cache_size = 100

tidb_ddl_enable_fast_reorg 从 v6.3.0 版本开始引入6.5默认值为on,如需正确使用但需要正确配置temp-dir,如使用该功能可以关闭

set global tidb_ddl_enable_fast_reorg = off;

然后查一下对应的版本,集群将要升级到 7.5,查询官方文档可知 TiDB Operator 的版本推荐为 1.5。所以我们将要升级到 v1.5.3

正式开始

升级 TiDB Operator

先更新 CRD

kubectl replace -f https://raw.githubusercontent.com/pingcap/tidb-operator/v1.5.3/manifests/crd.yaml

我们使用 kustomize 来管理所有 K8S 上的资源,所以升级比较简单,更新掉版本号就好。

diff --git a/tidb-admin/tidb-operator/base/kustomization.yaml b/tidb-admin/tidb-operator/base/kustomization.yaml
index bc77f9d7f..824d79d11 100644
--- a/tidb-admin/tidb-operator/base/kustomization.yaml
+++ b/tidb-admin/tidb-operator/base/kustomization.yaml
@@ -1,19 +1,19 @@namespace: tidb-adminresources: []# - https://raw.githubusercontent.com/pingcap/tidb-operator/v1.4.4/manifests/crd.yamlhelmCharts:- name: tidb-operator
-    version: v1.4.7
+    version: v1.5.3valuesInline:scheduler:create: falsetimezone: "Asia/Shanghai"controllerManager:resources:requests:cpu: 10mmemory: 128Milimits:memory: 128Mirepo: https://charts.pingcap.org/releaseName: tidb-operator

等待新实例启动,观察日志出现类似如下的信息,代表已经完成。理论上升级 TiDB Operator 不会引起 TiDB 本身的更新,兼容性没问题的话,会直接进入 ready 的状态。

I0815 16:12:13.182073 1 tidbcluster_control.go:71] TidbCluster: [ops/bigdata] updated successfully
I0815 16:12:43.204827 1 tidbcluster_control.go:71] TidbCluster: [ops/bigdata] updated successfully

升级 TiDB

更新 CRD 里的 version 参数即可。 同样我们的 CRD 也是用 kustomize 管理的,所以更新版本号

diff --git a/ops/tidb/overlays/prod/tidb.yaml b/ops/tidb/overlays/prod/tidb.yaml
index ac8269805..1d8761a96 100644
--- a/ops/tidb/overlays/prod/tidb.yaml
+++ b/ops/tidb/overlays/prod/tidb.yaml
@@ -10,7 +10,7 @@ spec:######################### TiDB cluster version
-  version: "v6.5.7"
+  version: "v7.5.2"## Time zone of TiDB cluster Podstimezone: Asia/Shanghai

应用后,TiDB Operator 就会马上开始滚动升级,PD → TiKV → TiDB → TiCDC。我们线上是一个最小高可用规模的集群,大概花费半个小时左右的事件就能滚动升级完毕,消耗时间较长的是 TiKV 和 TiCDC,过程中需要迁移 leader 以保证尽可能的平滑,需要等待一些时间。

建议通过观察 TiDB Operator 日志来确定是否升级完毕

升级 DM

我们通过一组 DM 同步 MySQL 数据到 TiDB 当中,升级完 TiDB 后配套升级 DM。

同样是更新 CRD 里的 version 参数

diff --git a/ops/tidb-dm/overlays/prod/dm.yaml b/ops/tidb-dm/overlays/prod/dm.yaml
index dddfe1f55..a0802b168 100644
--- a/ops/tidb-dm/overlays/prod/dm.yaml
+++ b/ops/tidb-dm/overlays/prod/dm.yaml
@@ -3,7 +3,7 @@ kind: DMClustermetadata:name: bigdataspec:
-  version: v6.5.7
+  version: v7.5.2configUpdateStrategy: RollingUpdatepvReclaimPolicy: Deletediscovery:

DM 的升级过程相当快,基本上都可以看作是无状态的服务,重启了就好了。

建议通过观察 TiDB Operator 日志来确定是否升级完毕

升级 TiDB Monitor

更新 TiDB monitor 的版本号。

diff --git a/ops/tidb-monitor/overlays/prod/monitor.yaml b/ops/tidb-monitor/overlays/prod/monitor.yaml
index d9c19bfea..f7fb4ba38 100644
--- a/ops/tidb-monitor/overlays/prod/monitor.yaml
+++ b/ops/tidb-monitor/overlays/prod/monitor.yaml
@@ -10,7 +10,7 @@ spec:- name: bigdatainitializer:baseImage: ccr.ccs.tencentyun.com/patest/tidb-monitor-initializer
-      version: v6.5.7
+      version: v7.5.2alertmanagerURL: alertmanager.ops:9093kubePrometheusURL: http://k8s-prometheus.ops:9090thanos:
@@ -22,7 +22,7 @@ spec:name: thanos-configrequests:cpu: 10m
-      memory: 32Mi
+      memory: 64Miversion: v0.31.0grafana:baseImage: grafana/grafana
@@ -45,7 +45,7 @@ spec:version: v2.45.0initializer:baseImage: ccr.ccs.tencentyun.com/patest/tidb-monitor-initializer
-    version: v6.5.7
+    version: v7.5.2reloader:baseImage: pingcap/tidb-monitor-reloaderlimits:

可能是因为升级之后监控指标变多了, 以前开的非常小的 Thanos sidecar 内存不够用了。

可以看到我们的 initializer baseImage 用的是我们自己打包的镜像,原因是我们希望 DM 和 TiDB 的指标用同一组 Prometheus + Grafana,而官方的 initializer 每次执行时似乎会清理掉原有的配置,所以对镜像里的脚本做了一些简单的魔改,注释掉了清理逻辑。(不知道将来官方是否可以考虑通过参数支持这个需求)

升级完毕后遇到的问题

升级完后整体上业务都没有特别的感知,但有一个我们的业务在重启后出现了无法启动的问题。

  • 业务为 Spring Boot 应用,没有使用 Hibernate 作为数据库的 ORM 库,而是使用的 JetBrains Exposed 框架。
  • 这个框架在进行初始化时会尝试通过访问 INFORMATION_SCHEMA 的一些系统表来验证业务内表名及字段的合法性
  • 升级前后 TiDB 上报的 MySQL 版本发生了变化,从 5.7.x → 8.x
  • JetBrains Exposed 发现是 MySQL 8,尝试访问 INFORMATION_SCHEMA.KEYWORDS
  • TiDB v7.5.2 暂时还不支持这张表

当时也在社区里查了一下这个问题,发现类似情况 https://asktug.com/t/topic/1018669 ,最后选择改 TiDB 参数而不去动业务了

diff --git a/ops/tidb/overlays/prod/tidb.yaml b/ops/tidb/overlays/prod/tidb.yaml
index 1d8761a96..bcdfcefdd 100644
--- a/ops/tidb/overlays/prod/tidb.yaml
+++ b/ops/tidb/overlays/prod/tidb.yaml
@@ -364,6 +364,8 @@ spec:## tidb-server Configuration## Ref: https://docs.pingcap.com/tidb/stable/tidb-configuration-fileconfig: |
+      server-version = "5.7.44-TiDB-v7.5.2"
+[log][log.file]max-backups = 3

使用 TiDB Operator 时,修改运行参数也很方便,只要直接在 CRD 对应字段里加上,等着滚动升级即可。配置完后问题即得到解决。

总结

升级后遇到的兼容性问题刚好在 TiDB v7.5.3 获得了修复,后续计划再进行一次升级,同时把手动更改的参数恢复到默认值。时间不巧,刚好没赶上。

升级完毕后,整体感觉集群运行更为稳定了。虽然遇到了 MySQL 8 的兼容性问题,但也可以看到 TiDB 正在努力兼容,这也为未来我们全面升级到 MySQL 8 打下了良好的基础。

升级过程可以说非常丝滑,全部升级大概只花了半天的时间 ,整个过程基本上就是看着 TiDB Operator 的日志进行操作,通过 K8S CRD 对集群的抽象配置也进一步减少了人工的介入。去年将集群全部迁移进 K8S 现在来看确实是一件非常值得的事情,一方面提高了机器资源利用率,另一方面也减轻了此后的运维压力。

后续还在升级后的集群上运行了过去的 TiSpark 任务,代码和库都没有变更,也能正常执行,应该没有产生不兼容的变化。


http://www.ppmy.cn/ops/97194.html

相关文章

Windows Server 2012 R2服务器安装CVE-2024-38077补丁KB5040456的安装及问题解决

Windows 远程桌面授权服务远程代码执行漏洞CVE-2024-38077&#xff0c;该漏洞影响: 远程执行代码&#xff0c;漏洞最高严重性: 严重。本文记录了Windows Server 2012 R2服务器补丁KB5040456的安装及报错“此更新不适用于你的计算机”的问题解决过程。 一、漏洞相关信息 1.影响…

「OC」探索CALayer:基础知识与实用技巧简要介绍

「OC」探索CALayer&#xff1a;基础知识与实用技巧简要介绍 文章目录 「OC」探索CALayer&#xff1a;基础知识与实用技巧简要介绍前言认识CALayerCALayer的相关属性 UIView和CALayer区别联系创建UIView和CALayer的原因 开始创建CALayer视图层级CALayers 和 Sublayersposition与…

鸿蒙HarmonyOS实战:IPC与RPC设备内进程通信

基本 IPC&#xff08;Inter-Process Communication&#xff09;与RPC&#xff08;Remote Procedure Call&#xff09;用于实现跨进程通信&#xff0c;不同的是前者使用Binder驱动&#xff0c;用于设备内的跨进程通信&#xff0c;后者使用软总线驱动&#xff0c;用于跨设备跨进…

如何快速进入医疗器械维修行业

在当今医疗技术飞速发展的时代&#xff0c;医疗器械维修行业作为医疗服务的重要支撑&#xff0c;展现出了广阔的发展前景和就业机会。对于那些有志于进入这一领域的人来说&#xff0c;掌握正确的方法和途径至关重要。 首先&#xff0c;扎实的知识储备是进入医疗器械维修行业的…

以太网交换基础

1.以太网协议介绍 以太网是当今现有局域网&#xff08;Local Area Network, LAN&#xff09;采用的最通用的通信协议标准&#xff0c;该标准定义了在局域网中采用的电缆类型和信号处理方法。 冲突域 冲突域是指连接在同一共享介质上的所有节点的集合&#xff0c;冲突域内所有…

Graphpad Prism for Mac 医学绘图软件教程

Mac分享吧 文章目录 效果一、下载软件二、开始安装1、双击运行软件&#xff0c;将其从左侧拖入右侧文件夹中&#xff0c;等待安装完毕2、应用程序显示软件图标&#xff0c;表示安装成功 三、运行测试安装完成&#xff01;&#xff01;&#xff01; 效果 一、下载软件 下载软件…

数据库学习(进阶)

数据库学习&#xff08;进阶&#xff09; Mysql结构:连接层&#xff1a;服务层&#xff08;核心层&#xff09;&#xff1a;存储引擎层&#xff1a;系统文件层&#xff1a; 存储引擎&#xff08;概述&#xff09;:存储引擎特点&#xff1a;InnoDB存储引擎&#xff1a;(为并发条…

day23-测试自动化之Appium的滑动和拖拽事件、高级手势ActionChains、手机操作API

目录 一、滑动和拖拽事件 1.1.应用场景 1.2.swipe滑动事件 1.3.scroll滑动事件 1.4.drag_and_drop拖拽事件 1.5.滑动和拖拽事件的选择 二、高级手势ActionChains 2.1.应用场景 2.2.使用步骤 2.3.注意点 2.4.方法 1).手指轻敲操作 (掌握) 2).手势按下和抬起操作(掌握&#xff0…

响应式Web设计:纯HTML和CSS的实现技巧-1

响应式Web设计&#xff08;Responsive Web Design, RWD&#xff09;是一种旨在确保网站在不同设备和屏幕尺寸下都能良好运行的网页设计策略。通过纯HTML和CSS实现响应式设计&#xff0c;主要依赖于媒体查询&#xff08;Media Queries&#xff09;、灵活的布局、可伸缩的图片和字…

React 入门第一天:从Vue到React的初体验

作为一名合格的前端工程师&#xff0c;怎么能只会Vue呢&#xff1f;学习React不仅是一场新技术的探索&#xff0c;更是对前端开发思维的一次重新审视。在这里&#xff0c;我将分享学习React的心得&#xff0c;希望能帮助那些和我一样从Vue转向React的开发者。 1. 为什么选择Re…

playbook(剧本)基本应用、playbook常见语法、playbook和ansible操作的编排

playbook(剧本): 是ansible⽤于配置,部署,和管理被控节点的剧本。⽤ 于ansible操作的编排。 使⽤的格式为yaml格式 一、YMAL格式 以.yaml或.yml结尾 ⽂件的第⼀⾏以 "---"开始&#xff0c;表明YMAL⽂件的开始(可选的) 以#号开头为注释 列表中的所有成员都开始于…

思特科技案例:北京欢乐谷光影乐园

01      在北京欢乐谷的亲子领域&#xff0c;藏着一处“面积近400平米&#xff0c;炫酷堪比魔法世界的、美轮美奂的光影空间&#xff0c;做到了“让娃来了不想走&#xff0c;一玩就是一下午”。    思特科技案例&#xff1a;北京欢乐谷光影乐园      02      作…

STM32之SPI读写W25Q128芯片

SPI简介 STM32的SPI是一个串行外设接口。它允许STM32微控制器与其他设备&#xff08;如传感器、存储器等&#xff09;进行高速、全双工、同步的串行通信。通常包含SCLK&#xff08;串行时钟&#xff09;、MOSI&#xff08;主设备输出/从设备输入Master Output Slave Input&…

Godot关于fbx格式文件导入

查看文档fbx格式是支持&#xff0c;看我的文件也是存在&#xff0c;就是在编辑器中文件系统找不到。解决方案如下 确保你开启了fbx导入&#xff0c;之后自动重启就可以导入了&#xff0c;unity的模型也可以用。什么立方体胶囊之类的。

水利机械5G智能制造工厂物联数字孪生平台,推进制造业数字化转型

在当今这个科技日新月异的时代&#xff0c;水利机械行业正经历着一场深刻的变革&#xff0c;其中5G智能制造工厂物联数字孪生平台的引入&#xff0c;无疑是推动制造业数字化转型的重要驱动力。工业物联数字孪生平台是智能制造工厂的核心组成部分&#xff0c;它基于物理世界的真…

高性能日志系统 代理模式构建全局日志器获取接口

日志器获取接口 通过两个函数&#xff0c;用于获取指定名称的日志器和root日志器。两个函数分别通过调用loggerManager的getInstance方法&#xff0c;获取单例的日志管理器对象&#xff0c;通过这种方式&#xff0c;借助日志管理器获取具体的日志器对象。 设计的主要目的&…

打卡学习Python爬虫第三天|python的re模块的使用

如何在python程序中使用正则表达式&#xff1f;就是使用re模块 re模块使用&#xff1a; 1、findall查找所有&#xff0c;返回list list re.findall("n","I love learning English and Chinese!") print(list) # 输出结果&#xff1a;[n,n,n,n,n] list…

Epic Games 商店面向欧盟 iPhone 用户上线

Epic Games Store 终于在欧盟推出&#xff0c;为玩家提供了不通过 App Store 就能在 iPhone上访问游戏的途径。在经历了漫长而昂贵的关于支付和竞争对手应用程序店面的法律战&#xff0c;以及公证方面的麻烦之后&#xff0c;Epic Games 成功地为App Store 带来了一个数字店面。…

【pyqt5】QLineEdit中的文本输入限制方式,输入校验规则的应用详解

✨✨ 欢迎大家来到景天科技苑✨✨ &#x1f388;&#x1f388; 养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; &#x1f3c6; 作者简介&#xff1a;景天科技苑 &#x1f3c6;《头衔》&#xff1a;大厂架构师&#xff0c;华为云开发者社区专家博主&#xff0c;…

【Pyspark-驯化】一文搞懂Pyspark中表连接的使用技巧

【Pyspark-驯化】一文搞懂Pyspark中表连接的使用技巧 本次修炼方法请往下查看 &#x1f308; 欢迎莅临我的个人主页 &#x1f448;这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合&#xff0c;智慧小天地&#xff01; &#x1f387; 相关内容文档获取 微信公众号 &…