亿玛科技:TiDB 6.1.5 升级到 7.5.1 经验分享

devtools/2024/12/23 3:06:32/

作者: foxchan 原文来源: https://tidb.net/blog/6e628afd

为什么要升级?

本次升级7.5的目的如下:

1、tidb有太多的分区表需要归档整理。7.5版本这个功能GA了。

2、之前集群tikv节点的region迁移过慢,影响tikv节点迁移的效率,现在region的迁移速度显著提升。

3、tidb分布式执行框架功能GA了,对于大表的索引创建速度有了显著提升。

升级步骤

不同于官方的升级方式,我是通过自己写k8s pod 来实现的部署。

为什么?

1、因为资源有限,我并没有另一套集群来做cdc 同步。

2、毕竟跨2个大版本,tidb的底层数据结构都进行了大的变化。

所以自己通过脚本来实现集群的升级,保证每个步骤都是可控的。当然也是相信tidb的健壮性,不会因为升级失败导致集群不可用。

升级过程

整体升级流程和tiup的流程一致:

tiflash – pd – tikv – tidb – ticdc

tiflash 滚动升级

TiDBMPP 功能打开:

第一步:关闭 TiDB MPP 功能:在 TiDB 中运行 set @@global.tidb_allow_mpp=0;滚动重启所有 TiDB 节点(因为 global 变量的设置需要在新的 session 中生效,如果不滚动重启 TiDB 的话,现有的 session 仍然会生成 MPP 计划)

第二步:正常升级集群  第三步:重新开启 TiDB MPP 功能:在 TiDB 中运行 set @@global.tidb_allow_mpp=1; 并滚动重启所有 TiDB 节点

tikv滚动升级

将需要升级的tikv leader进行驱逐,在驱逐后升级image,待状态正常后恢复leader

pd-ctl -u http://192.168.7.25:2479 scheduler add evict-leader-scheduler 1

pd-ctl -u http://192.168.7.25:2479 scheduler remove evict-leader-scheduler

升级带来的好处

1、tiflash cpu消耗明显减少,如图所示,cpu使用减少了一半

image.png

2、集群很稳定,如果不是追求新功能和修复bug,可以一直运行。如图,这个集群平稳度过618活动,让小伙伴们安心过节

image.png

升级遇到的问题

遇到的最大问题是代价模型的改变, 每次跨大版本升级都要注意这个

以前的SQL执行计划从tiflash改到了tikv,导致性能急剧下降,问题情况和解决方案具体可参考: https://asktug.com/t/topic/1025244/1

这里把我升级遇到的问题列出来,当然这些都已经解决了。

tiflash 7.5.1 cpu负载不均衡

原因:

tiflash 的 region 只会在 store 级别均衡,也就是每个 store 的 region 总数平均。但每个 table 在各个 store 的 region 数量不一定平均。

tidb7.5.1:部分分区健康度一直是0,drop stats 和手动analyze也不行

原因:属于bug,tidb内存更新失败,需要定期重启tidb

tiflash 7.5.2 rename table 到其他database会崩溃

原因:属于bug,已于7.5.3修复

处理ddl假死

处理方式:

在 v6.5.0 及之后的版本中,TiDB 默认开启元数据锁特性。当集群从 v6.5.0 之前的版本升级到 v6.5.0 及之后的版本时,TiDB 会自动开启元数据锁功能。

新版本引入了 mysql.tidb_mdl_view 视图,可以用于查看当前阻塞的 DDL 的相关信息 SELECT * FROM mysql.tidb_mdl_view

从上面的输出结果中了解到,有一个 SESSION ID事务阻塞了该添加索引 DDL 的执行,通过KILL 命令中止 SESSION ID 的事务

cdc的升级

cdc从6.5才开始支持滚动升级,尤其是从6往7升级要注意,changefeed的写法也发生了改变。

每次升级cdc都要看这个文档,来确认cdc的版本兼容性。

所以你要是想通过cdc往低版本或者高版本的tidb集群同步数据,都要看这个文档哦!

https://github.com/pingcap/tiflow/blob/master/pkg/version/check.go

image.png

参数修改

每次升级都有一些参数需要修改,来匹配新版本的特性

#优化器选择优化 SET GLOBAL tidb_cost_model_version =2

#统计信息优化

SET GLOBAL tidb_enable_async_merge_global_stats='on' SET GLOBAL tidb_merge_partition_stats_concurrency=2

总结

1、如果没有特别的需求,可以使用比官方低一个版本的release。比如最新的GA是8.1,那么生产环境最高是7.5。

2、升级的版本建议是版本号第三位及以后。比如你要升级7.5,建议等到7.5.3之后再升级。


http://www.ppmy.cn/devtools/97866.html

相关文章

【数据结构】数据结构 知识总复习

文章目录 1. 复杂度计算1.1 时间复杂度1.2 空间复杂度1.3 如何计算 2. 常见线性结构2.1 顺序表 和 链表2.1.1 顺序表 (Array List)2.1.2 链表 (Linked List) 2.2 栈 和 队列2.2.1 什么是栈?什么是队列?关系是什么?2.2.2 如何实现?…

基于LSTM的交通流量预测算法及Python实现

一、算法原理 LSTM(长短期记忆网络)算法原理主要涉及到一种特殊的循环神经网络(RNN)结构,旨在解决传统RNN在处理长序列数据时容易出现的梯度消失或梯度爆炸问题。LSTM通过引入三个关键的门控机制(遗忘门、…

【开端】记一次诡异的接口排查过程

一、绪论 最近碰到这么一个情况,接口请求超时。前提是两台服务器间的网络是畅通的,端口也是通,应用代码也是通。意思是在应用上,接口没有任何报错,能正常返回数据。客户端到服务端接口也能通,但是接收不到服…

拉取/启动kafka的docker镜像

拉取/启动kafka的docker镜像 1、拉取kafka镜像2、移除docker镜像(演示)3、查看镜像是否拉取成功4、通过docker启动kafka容器5、查看是否有启动的容器 1、拉取kafka镜像 因为一些原因,无法从dockerhub直接拉取kafka的docker镜像,我将原来拉到kafka3.7.0的…

初级python代码编程学习----简单的图形化闹钟小程序

我们来创建一个简单的图形化闹钟程序通常需要使用图形用户界面(GUI)库。以下是使用Python的Tkinter库创建一个基本闹钟程序的步骤: 环境准备 确保已安装Python。安装Tkinter库(Python 3.8及以上版本自带Tkinter,无需…

flink环境搭建

Flink会话模式 1.集群规划: 2. 将flink拖到/opt/so下 3. 将安装包解压到/opt/module下: tar -zxvf /opt/so/flink-1.15.4-bin-scala_2.12.tgz -C /opt/module 4. 改个名:mv flink-1.15.4 flink 5. 修改配置文件:cd /opt/mo…

win10蓝牙只能发送,无法接收

给win10升了级,到22H2,蓝牙出了问题 以前接收,就是默认直接就可以接收。现在只能发送,无法接收。 在网上找了很多办法都没奏效,目前的方法是, 每次接收,都要操作一次,而不是自动接…

macOS symbol(s) not found for architecture arm64错误原因总结

背景 环境: macOS 14MacBook Pro M3 正文 在macOS上进行C开发,有时会遇到以下报错: Undefined symbols for architecture arm64:"CameraRawWidget::eventFilter(QObject*, QEvent*)", referenced from:vtable for CameraRawWi…