K8s节点状态 NotReady排查

news/2024/10/22 16:39:36/

k8s节点由 Ready变成 NotReady

izbp12ghzy6koox6fqt0suz   NotReady   slave                97d   v1.23.3
izbp12ghzy6koox6fqt0svz   Ready      control-plane,master   98d   v1.23.3

节点进入 NotReady 状态可能是由于多种原因引起的,尤其是在资源过量分配(overcommitment)时,常见的原因包括节点资源(CPU、内存)不足、关键组件失败、磁盘压力等。

1. 检查节点资源使用情况

首先,检查节点的资源使用情况,以确定是否由于资源过度使用导致节点不可用。

kubectl describe node izbp12ghzy6koox6fqt0suz

查看输出中是否有以下几种资源压力:

  • MemoryPressure: 表示节点内存不足。
  • DiskPressure: 表示节点磁盘使用率过高。
  • PIDPressure: 表示节点上的进程数达到系统限制。
  • Ready: 表示节点是否就绪。

如果存在 MemoryPressureDiskPressure,则说明节点资源紧张,需要释放或增加资源。

在这里插入图片描述
可以看到节点内存、磁盘等信息状态都是未知的,初步怀疑节点状态已经dead

往下看到资源resource超出
在这里插入图片描述
初步怀疑在某一刻调度时,由于资源超出额度,导致节点状态异常

2. 排查 Kubelet 及系统服务

检查节点上 kubelet 服务和其他系统服务的状态。kubelet 是 Kubernetes 的关键组件,它负责报告节点状态和管理 Pod。

登录到问题节点 (izbp12ghzy6koox6fqt0suz) 并检查 kubelet 状态:

sudo systemctl status kubelet

在这里插入图片描述
如果 kubelet 没有运行,尝试重启:

sudo systemctl restart kubelet

在这里插入图片描述
重新查看节点状态,发现正常了

[root@iZbp12ghzy6koox6fqt0svZ ~]# kubectl get nodes
NAME                      STATUS   ROLES                  AGE   VERSION
izbp12ghzy6koox6fqt0suz   Ready    slave                 97d   v1.23.3
izbp12ghzy6koox6fqt0svz   Ready    control-plane,master   98d   v1.23.3

还可以查看 kubelet 日志,找出可能导致问题的具体错误信息:

sudo journalctl -u kubelet -f

3. 释放资源

如果节点资源不足,可以考虑以下几种方法来释放资源:

  • 驱逐低优先级的 Pod: 手动删除一些不太重要的 Pod,以释放资源
kubectl delete pod <pod_name> -n <namespace>
  • 调整资源限制: 通过降低 Pod 的资源限制(limits)来减少节点资源的占用。

4. 添加或扩展节点

如果你发现节点的资源实际已经无法满足工作负载,可以考虑:

  • 扩展集群: 添加更多的节点来分担工作负载。
  • 扩展节点资源: 例如在云环境中,增加节点的 CPU 或内存配置

5. 检查集群组件状态

确保控制平面的关键组件(如 API Server、Controller Manager、Scheduler)正常运行,因为这些组件的问题也可能导致节点状态异常。

kubectl get pods -n kube-system

在这里插入图片描述
检查是否有任何集群组件的 Pod 处于 CrashLoopBackOff 或其他异常状态。

6. 检查节点的磁盘空间

磁盘空间不足也可能导致节点不可用。你可以使用以下命令来检查节点的磁盘使用情况:

df -h

如果磁盘空间不足,删除不必要的文件或日志以释放空间。

7. 删除并重新加入节点

如果上述方法都未能解决问题,你可以考虑将节点从集群中移除并重新加入。注意,这个操作会中断该节点上的工作负载。

从集群中移除节点:

kubectl drain izbp12ghzy6koox6fqt0suz --ignore-daemonsets --delete-local-data
kubectl delete node izbp12ghzy6koox6fqt0suz

重新加入节点(在节点上运行):

sudo kubeadm reset
sudo kubeadm join <control-plane-ip>:<port> --token <token> --discovery-token-ca-cert-hash sha256:<hash>

8. 检查网络和 DNS 配置

有时网络配置问题也可能导致节点 NotReady。检查节点的网络连接,确保它能正常访问控制平面和其他节点。也可以检查 DNS 设置,确保 Kubernetes 的网络插件(如 FlannelCalico)正常运行。

kubectl get pods -n kube-system

确保网络插件相关的 Pod 都处于 Running 状态。


http://www.ppmy.cn/news/1514580.html

相关文章

Selenium工具使用Python实现下拉框定位操作

&#x1f345; 点击文末小卡片&#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 我们通常遇到的下拉框有显性的下拉框和隐性的下拉框&#xff1b;有的下拉框还可以进行单选或多选操作&#xff0c;在selenium中如何实现下拉框的定位通常使用selec…

未来的社交网络:人工智能如何推动Facebook的发展

在当今数字化飞速发展的时代&#xff0c;人工智能&#xff08;AI&#xff09;已成为推动各行业进步的核心动力之一。社交媒体巨头Facebook凭借其在人工智能领域的深厚积累&#xff0c;正逐步将AI技术融入平台的各个方面&#xff0c;重新定义用户体验&#xff0c;并引领社交网络…

禁止浏览器默认填充密码 vue

禁止浏览器默认填充密码会和我的样式冲突 所以禁止 第一种&#xff1a; 通过给表单元素添加 autocomplete"off" 属性&#xff0c; 可以防止浏览器自动填充表单中的账号和密码。可以在 input 标签或整个 form 标签上使用&#xff1a; <template><a-form&g…

C++资料电子书资源PDF免费分享

C电子书 这里写目录标题 C电子书目录资源获取 目录 《数据结构(C语言版)》(严蔚敏 吴伟明编著).pdf 7.6MB 《C程序设计题解与上机指导》(第二版).谭浩强.pdf 7.0MB 《C程序设计(第四版)学习辅导》.谭浩强.扫描版.pdf 13.1MB 《C程序设计》第一版&#xff08;谭浩强&#xff09…

网络工程师学习笔记——数据通信

学习网络的基础就是数通&#xff0c;首先得了解数据在网络上是如何传输&#xff0c;以及在传输过程中是使用什么方式进行传输&#xff0c;以及是如何到达接受方和如何解压和加密的等等。 数字编码技术 有基本编码&#xff08;单极性码&#xff0c;极性码&#xff0c;双极性码…

计算机二级题--指针 章节

1.概念 1.函数名代表函数的入口地址 2.交换地址 1.*s,说明s是一个指针变量 2.s&k;说明让s指向k地址 3.所以*sk实际上与上面那句是等价的,因此m一直都没有什么变化依然是3 4.k是全局变量所以是5 3&#xff0c;7&#xff1b;改变s指向之后&#xff0c;又将值赋给了s指向的…

Cobalt Strike 4.8 用户指南-第二节-用户界面

2.1、概述 Cobalt Strike用户界面分为两部分。界面顶部显示会话或目标的可视化。界面底部显示与你交互的每个 Cobalt Strike 功能或会话的选项卡。可以单击这两个部分之间的区域并根据自己的喜好调整它们的大小。 # 2.2、工具栏 顶部的工具栏提供对常见 Cobalt Strike功能的快…

2024“钉耙编程”中国大学生算法设计超级联赛(8)

&#x1f680;欢迎来到本文&#x1f680; &#x1f349;个人简介&#xff1a;陈童学哦&#xff0c;彩笔ACMer一枚。 &#x1f3c0;所属专栏&#xff1a;杭电多校集训 本文用于记录回顾总结解题思路便于加深理解。 不是哥们&#xff0c;怎么我tm什么都不会。 &#x1f4e2;&…