Kubernetes ETCD的恢复与备份

devtools/2024/10/19 8:24:47/

在 Kubernetes 中,ETCD 扮演着至关重要的角色:

1. 集群状态存储 2. 服务发现 3. 配置管理 4. 分布式锁和协调 5. 故障恢复

ETCD 存储了 Kubernetes 集群中所有的状态信息,包括节点、Pod、Service、ConfigMap、Secrets 等。ETCD 支持服务发现机制,帮助 Kubernetes 组件找到彼此并进行通信。Kubernetes API Server 会通过 ETCD 存储和检索集群的配置信息和状态数据。ETCD 还用于存储和管理 Kubernetes 集群的配置数据,包括网络配置、存储配置等,确保集群能够根据最新的配置进行调整和优化。使用 Raft 一致性算法来确保数据的一致性和高可用性,这使得它可以用于实现分布式锁和协调机制,确保在多节点环境下的操作一致性。当集群中的某个节点发生故障时,ETCD 中存储的数据可以用于快速恢复该节点的功能。


下面介绍如何对ETCD进行恢复与备份:

首先,如果集群中正在运行任何 API 服务器,则不应尝试还原 etcd 的实例。相反,请按照以下步骤还原 etcd

  • 停止所有 API 服务器实例
  • 为所有 etcd 实例恢复状态
  • 重启所有 API 服务器实例

建议重启所有组件(例如 kube-schedulerkube-controller-managerkubelet), 以确保它们不会依赖一些过时的数据。


列出 etcdctl 可用的各种选项。可以通过指定端点、证书和密钥来制作快照。

ETCDCTL_API=3 etcdctl --endpoints=https://127.0.0.1:2379 \--cacert=<trusted-ca-file> \--cert=<cert-file> \--key=<key-file> \snapshot save <backup-file-location>

将现有的 Kubernetes 配置和 ETCD 数据目录重命名为备份目录,以便在恢复过程中不被覆盖。

mv /etc/kubernetes/manifests /etc/kubernetes/manifests.bak
mv /var/lib/etcd /var/lib/etcd.bak

etcd 支持从 major.minor 或其他不同 patch 版本的 etcd 进程中获取的快照进行恢复。 还原操作用于恢复失败的集群的数据。在启动还原操作之前,必须有一个快照文件。它可以是来自以前备份操作的快照文件, 也可以是来自剩余数据目录的快照文件。

ETCDCTL_API=3 etcdctl \--endpoints=https://127.0.0.1:2379 \--cacert=<trusted-ca-file> \--cert=<cert-file> \--key=<key-file> \--data-dir <data-dir-location> \
snapshot restore snapshot.db

**如果 <data-dir-location> 与之前的文件夹相同,请先删除此文件夹并停止 etcd 进程,再恢复集群。 否则,在恢复后更改 etcd 配置并重启 etcd 进程将使用新的数据目录: 首先将 /etc/kubernetes/manifests/etcd.yaml 中 name: etcd-data 对应条目的 volumes.hostPath.path 改为 <data-dir-location>, 然后执行 kubectl -n kube-system delete pod <name-of-etcd-pod> 或 systemctl restart kubelet.service(或两段命令都执行)。

然后将 Kubernetes 配置恢复到原始位置,并重启 kubelet 服务以应用更改。

mv /etc/kubernetes/manifests.bak /etc/kubernetes/manifests
systemctl restart kubelet.service

注意事项

验证备份和恢复:在执行这些操作之前,确保备份文件的完整性和可用性。

服务中断:在生产环境中执行这些操作时,可能会导致服务中断,请提前做好准备。

权限:确保执行这些命令的用户具有足够的权限。

结束


http://www.ppmy.cn/devtools/126960.html

相关文章

.Net自动更新程序GeneralUpdate,适用于wpf,winfrom,控制台应用

GeneralUpdate是基于.net framwork4.5.2开发的一款&#xff08;c/s应用&#xff09;自动升级程序。 第一个版本叫Autoupdate 有人会奇怪为什么会改名称&#xff0c;稍微解释一下是因为在nuget上有重名的项目再者就是新版本更新功能不仅限于wpf程序的更新。 将更新的核心部分抽…

通过Express + Vue3从零构建一个用户认证与授权系统(三)前端应用工程构建

前言 接下来&#xff0c;我们将使用 Vue 3、TypeScript 和 Vite 构建一个前端应用&#xff0c;与之前构建的后端 API 无缝对接。此前端将处理用户认证、显示用户数据、管理角色和权限&#xff0c;并确保与后端的安全通信。首先&#xff0c;我们来构建一个满足基本开发的前端应…

springboot web 和webflux两个都引用会怎样?

前一篇发了 springboot 启动 Check your application‘s dependencies for a supported reactive web server-CSDN博客 虽然是解决了&#xff0c;但还是要一探究竟 原因&#xff1a; 在我的项目里引用了pom.xml 引入了 spring.boot.parent 此时如果直接写SpringBootApplicat…

5G NR:UE初始接入信令流程浅介

UE初始接入信令流程 流程说明 用户设备&#xff08;UE&#xff09;向gNB-DU发送RRCSetupRequest消息。gNB-DU 包含 RRC 消息&#xff0c;如果 UE 被接纳&#xff0c;则在 INITIAL UL RRC MESSAGE TRANSFER 消息中包括为 UE 分配的低层配置&#xff0c;并将其传输到 gNB-CU。IN…

力扣 中等 82.删除排序链表中的重复元素 II

文章目录 题目介绍题解 题目介绍 题解 只需在83题基础上加一个while循环即可 class Solution {public ListNode deleteDuplicates(ListNode head) {ListNode dummy new ListNode(101, head);ListNode cur dummy;while (cur.next ! null && cur.next.next ! null) {…

重塑企业数字化未来:物联网与微服务架构的战略性深度融合

从物联网到微服务架构的战略价值解读 随着全球数字化转型的不断加速&#xff0c;企业需要重新审视其技术基础架构&#xff0c;以适应日益复杂的业务需求和市场变化。物联网&#xff08;IoT&#xff09;作为核心技术&#xff0c;已广泛应用于制造、农业、交通、医疗等各个行业&…

lstm基础知识

lstm前言 LSTM(Long short-term memory)通过刻意的设计来避免长期依赖问题&#xff0c;是一种特殊的RNN。长时间记住信息实际上是 LSTM 的默认行为&#xff0c;而不是需要努力学习的东西&#xff01; 在标准的RNN中&#xff0c;这个重复模块具有非常简单的结构&#xff0c;例…

Django 序列化serializers

在Django中&#xff0c;序列化通常指的是将数据库中的模型数据转换为JSON、XML或其他格式的过程。Django提供了内置的序列化工具&#xff0c;可以通过django.core.serializers模块进行序列化操作。 当你使用Django的序列化功能时&#xff0c;可以序列化以下两种对象类型&#…